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5 HINTERGRUND PER ERFINDUNG 

1. GEBIET PER ERFINDUNG 

10 Pie Erfindung betrifft das Gebiet von Verfahren und Vorrichtungen zum 
Unterhalten eines konsistenten Pateisystems und zum Schaffen von aus- 
schlieBlich lesbaren Kopien des Pateisystems. 

2. EINSCHLAGIGER STANP PER TECHNIK 

15 

Samtliche Pateisysteme miissen auch bei Systemausfall Konsistenz be- 
wahren, Im Stand der Technik wurde zu diesem Zweck eine Reihe unter- 
schiedlicher Konsistenzmethoden eingesetzt. 

20 Eine der schwierigsten imd zeitraubendsten Anforderungen bei der Ver- 
waltimg jedes Pateiservers ist die Anfertigung von Sichenmgen der Patei- 
daten. Traditionelle Losungen bestanden darin, eine Kopie der Paten auf 
Band oder andere Offline-Patentrager zu bringen. Bei einigen Pateisyste- 
men muB beim SicherungsprozeB der Patenserver offline gesetzt werden, 

25 um sicher zu gehen, daB der Sicheningsvorgang voUstandig konsistent ist. 
Ein jungerer Fortschritt bei der Patensicherung ist die Moglichkeit, ein 
Pateisystem rasch zu ,Jdonen" (d.i. ein zum Stand der Technik gehoriges 
Verfahren zum Erzeugen einer nur lesbaren Kopie des Pateisystems auf 
Platte), und eine Patensicherung anhand des Klons, und nicht aus dem 

30 aktiven Pateisystem zu erstellen. Bei diesem Typ von Patei kann der Pa- 
tenserver beim Sicherungsbetrieb online bleiben. 



Datenbank-Konsistenz 



Eine herkommliche Datenbank (Dateisystem) ist von Chutani, et al. offen- 
bart in seinem Artikel mit dem Titel The Episode File System, USENIX, 
Winter 1992, Seiten 43-59. Dieser Artikel beschreibt das Episode- 
Dateisystem, bei dem es sich um eine Datenbank unter Verwendung von 
Meta-Daten (das heiBt Inoden-Tabellen, Verzeichnissen, Momentaufnah- 
men xmd indirekten Blocken) handelt. Es kann als eigenstandige oder als 
verteilte Datenbank verwendet werden. Episode unterhalt eine Mehrzahl 
separater Datenbank-Hirarchien. Episode nimmt kollektiv auf mehrere 
Datenbanken als ,^ggregat" Bezug. Insbesondere schafft Episode einen 
Klon jeder Datenbank zur langsamen Anderung von Daten. 

In Episode enthalt jede logische Datenbank eine , Anoden"-Tabelle. Eine 
Anoden-Tabelle ist Equivalent einer in Datenbanken wie dem Berkeley 
Fast File System verwendeten Inoden-Tabelle. Es handelt sich um eine 
252-Byte-Struktur. Anoden dienen zum Speichem samtlicher Benutzerda- 
ten sowie von Meta-Daten innerhalb des Episode-Dateisystems. Eine An- 
ode beschreibt das Hauptverzeichnis einer Datenbank einschlieBlich Hilfs- 
dateien und Verzeichnissen. Jedes derartige Dateisystem wird in Episode 
als eine ,J)ateimenge" (Fileset) referenziert. Samtliche Daten innerhalb 
einer Dateimenge konnen geortet werden, indem iterativ durch die An- 
oden-Tabelle gegangen und jede Datei ihrerseits verarbeitet wird. Episode 
erzeugt eine ausschlieBlich lesbare Kopie einer Datenbank, die hier als 
„Klon" bezeichnet wird, und sie nutzt gemeinsam Daten mit dem aktiven 
Dateisystem imter Einsatz von Copy-On- Write-Methoden (COW- 
Methoden; Kopieren nach Schreiben). 

Episode verwendet eine Protokollmethode zur Wiedererlangung einer oder 
mehrerer Datenbanken nach einem Systemzusammenbruch. Das Protokol- 
lieren garantiert, daB die Datei-Meta-Daten konsistent sind. Eine Moment- 
aufhahmen-Tabelle enthalt Information dartiber, ob jeder Block innerhalb 
der Datenbank zugeordnet ist oder nicht. AuBerdem zeigt die Momentauf- 
nahmen-Tabelle an, ob jeder Block protokolliert ist oder nicht. Samtliche 
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Meta-Daten-Aktualisierungen werden in einem Protokoll-,3ehalter" auf- 
gezeichnet, der das Transaktions-Protokoll des Aggregats speichert. Das 
Protokoll wird als Kreispuffer von Platten-Blocken verarbeitet. Die Tran- 
saktions-ProtokolIierung von Episode venvendet ProtokoUiermethoden, 
5 die urspriinglich fur Datenbanken mit dem Zweck entwickelt wurden, Da- 
teisystem-Konsistenz zu garantieren. Diese Methode macht sorgfaltigen 
Gebrauch von Schreibbefehlen sowie einem Wiederherstellungsprogramm, 
die von Datenbankmethoden innerhalb des Wiederherstelliingsprograninis 
unterstutzt werden. 

10 

Andere zum Stand der Technik zahlende Systeme enthalten JFS von IBM 
und VxFS von Veritas Corporation und machen Gebrauch von unter- 
schiedlichen Formen der Transaktions-Protokollierung, um den Wieder- 
herstellungsprozeB zu beschleunigen, allerdings erfordem sie inimer noch 
1 5 einen WiederherstellungsprozeB . 

Ein weiteres bekanntes Verfahren wird als Methode des „geordneten 
Schreibens" bezeichnet. Es schreibt samtliche Platten-B15cke in sorgfaltig 
festgelegter Reihenfolge, so daB Schaden minimiert wird, wenn es zu ei- 

20 nem Systemausfall kommt, wahrend eine Reihe von zueinander in Bezie- 
hung stehender Schreibvorgange durchgefuhrt wird. Dieser Stand der 
Technik versucht sicherzxistellen, daB moglichenveise auftretende Inkonsi- 
stenzen harmlos sind, Beispielsweise werden einige wenige xmgenutzte 
Blocke Oder Inoden als zugeordnet markiert. Der Hauptnachteil dieser Me- 

25 thode besteht darin, daB die dadurch der Plattenordnung auferlegten Re- 
striktionen eine hohe Leistungsfahigkeit kaum zulassen. 

Ein weiteres bekanntes System ist eine Weiterentwicklimg des zweiten 
bekannten Verfahrens, bezeichnet als Methode des „geordneten Schreibens 
30 mit Wiederherstellxmg". Bei diesem Verfahren konnen Inkonsistenzen 
moglicherweise schadlich sein. Allerdings ist die Reihenfolge von 
Schreibvorgangen derart beschrankt, daB sich Inkonsistenzen auffinden 
und mit Hilfe eines Wiederherstellungsprogramms fixieren lassen, Beispie- 
le fur dieses Verfahren imifassen das ursprungliche UNIX-Dateisystem 



sowie das Berkeley Fast File System (FFS). Diese Methode verringert die 
Platten-Reihenfolge ausreichend, um die LeistungseinbuBe der Platten- 
Auftragserteilung zu beseitigen. Ein weiterer Nachteil besteht darin, daB 
der WiederherstellungsprozeB zeitraubend ist. Typischerweise ist er pro- 
portional zur GroBe des Dateisystems. Die Wiederherstellung eines 5 GB 
umfassenden FFS-Dateisystems erfordert daher beispielsweise zur Durch- 
fuhrung eine Stunde oder mehr. 

Dateisvstem-Klone 

Figur 1 ist ein den Stand der Technik zeigendes Diagramm fur das Episo- 
de-Dateisystem und veranschaulicht den Einsatz von Kopieren-Nach- 
Schreiben-Methoden (COW-Methoden), um einen Dateimengen-Klon zu 
erzeugen. Eine Anode 1 10 enthalt einen ersten Zeiger (Pointer) 1 lOA mit 
einem gesetzten COW-Bit. Der Zeiger 11 OA referenziert den Datenblock 
114 direkt. Die Anode 110 enthalt einen zweiten Zeiger HOB, dessen 
COW-Bit geloscht ist, Der Zeiger HOB der Anode referenziert den Block 
112 indirekt. Der indirekte Block 112 enthalt einen Zeiger 11 2 A, der den 
Datenblock 124 direkt referenziert. Das COW-Bit des Zeigers 112A ist 
gesetzt. Der indirekte Block 112 enthalt einen zweiten Zeiger 11 2B, der 
den Datenblock 126 referenziert. Das COW-Bit des Zeigers 112B ist ge- 
loscht. 

Eine Klon- Anode 120 enthalt einen ersten Zeiger 120A, der auf den Da- 
tenblock 1 14 zeigt. Das COW-Bit des Zeigers 120 A ist geloscht. Der zwei- 
te Zeiger 120B der Klon- Anode 120 referenziert den indirekten Block 122. 
Das COW-Bit des Zeigers 120B ist geloscht. Der indirekte Block 122 ent- 
halt einen Zeiger 122 A, der den Datenblock 124 referenziert. Das COW- 
Bit des Zeigers 122A ist geloscht. 

Wie in Figur 1 gezeigt ist, enthalt jeder direkte Zeiger 1 lOA, 1 12A-1 12B, 
120A und 122 A und jeder indirekte Zeiger HOB und 120B in dem Episo- 
de-Dateisystem ein COW-Bit. Blocke, die nicht modifiziert wurden, sind 
sowohl im aktiven Dateisystem als auch in dem Klon enthalten, und bei 
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ihnen sind die COW-Bits gesetzt (1). Das COW-Bit ist geloscht (0), wenn 
ein von dem Zeiger referenzierter Block modifiziert wurde und damit Teil 
des aktiven Dateisystems ist, nicht jedoch Teil des Klpns. 

5 Wird ein Kopieren-Nach-Schreiben-Block modifiziert, so wird gemaB Fi- 
gur 1 ein neuer Block zugeordnet und aktualisiert. Das COW-Flag in dem 
Zeiger auf diesen neuen Block wird dann gesetzt. Das COW-Bit des Zei- 
gers 11 OA der xirspriinglichen Anode 110 wird geloscht. Wenn also die 
Klon- Anode 120 erzeugt wird, referenziert die Klon- Anode 120 auch den 

10 Datenblock 1 14. Sowohl die Original-Anode 1 10 als auch die Klon- Anode 
120 referenzieren den Datenblock 114. Auch der Datenblock 124 wurde 
modifiziert, angedeutet durch ein geloschtes COW-Bit des Zeigers 1 12 A in 
dem ursprunglichen indirekten Block 112. Wenn folglich die Klon- Anode 
erzeugt wird, wird der indirekte Block 122 erzeugt. Der Zeiger 122 A des 

15 indirekten Blocks 122 referenziert den Datenblock 124, xmd das COW-Bit 
des Zeigers 122A ist geloscht. Sowohl der indirekte Block 122 der Origi- 
nal-Anode 110 als auch der indirekte Block 122 der Klon- Anode 120 refe- 
renzieren den Datenblock 124. 

20 Figur 1 zeigt das Kopieren einer Anode zum Erzeugen einer Klon- Anode 
120 fiir eine einzelne Datei. Allerdings mussen Klon-Anoden fur jede Da- 
tei erzeugt werden, die geanderte Datenblocke in dem Dateisystem enthalt. 
Zur Zeit des Klonens mussen samtliche Inoden kopiert werden. Das Er- 
zeugen von Klon-Anoden fiir jede modifizierte Datei innerhalb des Datei- 

25 systems kaun signifikante Mengen an Plattenspeicherplatz verbrauchen. 
AuBerdem ist Episode nicht in der Lage, Mehrfach-Klone zu handhaben, 
da jeder Zeiger lediglich ein einziges COW-Bit aufweist. Ein einzelnes 
COW-Bit ist nicht in der Lage, mehr als einen Klon zu unterscheiden. Bei 
mehr als einem Klon gibt es kein zweites COW-Bit, welches gesetzt wer- 

30 den konnte. 

Ein Dateisatz ,JGon" ist eine ausschlieBlich lesbare Kopie eines aktiven 
Dateisatzes, wohingegen der aktive Dateisatz selbst sowohl lesbar als auch 
beschreibbar ist. Klone werden unter Verwendung von COW-Methoden 
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implementiert und nutzen gemeinsam Datenblocke mit einem aktiven Da- 
teisatz auf Block-Fur-Block-Basis. Episode implementiert das KJonen da- 
durch, daB jede in einem Dateisatz gespeicherte Anode kopiert wird. Nach 
dem anfanglichen Klonen zeigen sowohl die beschreibbare Anode des ak- 
5 tiven Dateisatzes als auch die geklonte Anode auf denselben Datenblock 
Oder dieselben Datenblocke. AUerdings sind Plattenadressen fur direkte 
imd indirekte Blocke innerhalb der Original-Anode als COW gekenn- 
zeichnet. Deshalb hat eine Aktualisierung des beschreibbaren Dateisatzes 
keinen EinfluB auf den Klon. Wird ein COW-Block modifiziert, so wird 

10 ein neuer Block in dem Dateisystem zugewiesen xmd mit der Modifizie- 
rung aktualisiert. Das COW-Flag in dem Zeiger dieses neuen Blocks wird 
geloscht. Das bekannte Episode-System erzeugt KJone, die die gesamte 
Inoden-Datei sowie samtliche indirekten Blocke innerhalb des Dateisy- 
stems duplizieren. Episode dupliziert samtliche Inoden xmd indirekten 

15 Blocke derart, daB es ein Kopieren-Nach-Schreiben-(COW-)Bit in samtli- 
chen Zeigem auf Blocke setzen kann, die sowohl von dem aktiven Datei- 
system als auch von dem Klon benutzt werden. Bei Episode ist es wichtig, 
diese Blocke zu kennzeichnen, so daB neue, in das aktive Dateisystem ein- 
geschriebene Daten die alten Daten, welche Teil des Klons sind, und die 

20 deshalb nicht geandert werden durfen, nicht iiberschreiben. 

Das Erzeugen eines Klons im Stand der Technik kann bis zu 32 MB auf 
eine 1-GB-Platte verbrauchen. Der Stand der Technik verwendet 256 MB 
Plattenspeicherraum auf einer 1-GB-Platte (fur 4-KB-Bl6cke), um acht 

25 Klone des Dateisystems zu halten. Damit kann der Stand der Technik kei- 
ne groBen Anzahlen von Klonen zum Verhindem von Datenverlusten ver- 
wenden. Statt dessen erleichterte er ublicherweise das Sichem des Dateisy- 
stems auf eine Hilfsspeichereinrichtung, verschieden von dem Plattenlauf- 
werk, so zum Beispiel ein Band-Sicherungsgerat. Klone werden zum Si- 

30 chem eines Dateisystems in einem konsistenten Zustand in dem Zeitpunkt 
verwendet, zu dem der Klon hergestellt wird. Durch Klonen des Dateisy- 
stems kann der Klon zur Sicherheit auf das Hilfsspeichersystem gebracht 
werden, ohne daB dabei das aktive Dateisystem abgeschaltet wird, wo- 
durch Benutzer an einer Benutzung des Dateisystems gehindert wurden. 
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Damit ennoglichen es Klone den Benutzem, weiterhin auf ein aktives Da- 
teisystem zuzugreifen, wahrend das Dateisystem selbst in einem konsisten- 
ten Zustand gesichert wird. AnschlieBend wird der Klon geloscht, nachdem 
die Sichening abgeschlossen ist. Episode ist nicht in der Lage, mehrere 
5 Klone zu fuhren, da jeder Zeiger niir ein COW-Bit enthalt. Ein einzelnes 
COW-Bit ist nicht im Stande, mehr als einen Klon zu unterscheiden. Bei 
mehr als einem Klon gibt es kein zweites COW-Bit, welches gesetzt wer- 
den konnte. 

10 Ein Nachteil des bekannten Systems zum Erzeugen von Dateisystem- 
Klonen besteht darin, daB das System samtliche Inoden und samtliche indi- 
rekten Blocke innerhalb des Dateisystems dupliziert. Bei einem System 
mit zahlreichen kleinen Dateien kdnnen die Inoden allein einen signifikan- 
ten Prozentsatz des gesamten Plattenspeicherraxims eines Dateisystems 

15 belegen. In einem 1-GB-Dateisystem zum Beispiel, welches mit 4-KB- 
Dateien gefuUt ist, gibt es 32 MB Inoden. Das Erzeugen eines Episode- 
Klons verbraucht also einen signifikanten Anteil des Plattenspeicherraums 
imd erzeugt groBe Mengen (das heiBt 2:ahlreiche Megabytes) an Platten- 
verkehr. Als Ergebnis dieser Zustande nimmt das Erzeugen eines Klons 

20 eines Dateisystems einen betrachtlichen Zeitraum bis zur VervoUstandi- 
gung in Anspruch. 

Ein weiterer Nachteil des bekannten Systems besteht darin, daB das System 
die Erzeugxmg mehrerer Klone desselben Dateisystems schwierig macht. 
25 Im Ergebnis neigen die Klone dazu, einzeln fur Kurzzeitoperationen ver- 
wendet zu werden, so ziun Beispiel zum Sichera des Dateisystems auf 
Band, um dann geloscht zu werden. 

Die in den geanderten Anspriichen definierte Erfindung schafll ein Verfah- 
30 ren zum Halten eines Dateisystems in einem konsistenten Zustand sowie 
zum Erzeugen von ausschlieBlich lesbaren Kopien eines Dateisystems. 
Anderungen des Dateisystems werden streng gesteuert, um das Dateisy- 
stem in einem konsistenten Zustand zu halten. Das Dateisystem schreitet 
von einem selbst-konsistenten Zustand zu einem weiteren selbst- 
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konsistenten Zustand weiter. Die Menge an selbst-konsistenten Blocken 
auf einer Platte, die durch die HaupMnode beherrscht wird, wird als Kon- 
sistenzpunkt (CP) bezeichnet. Zum Implementieren yon Konsistenzpunk- 
ten schreibt WAFL stets neue Daten in nicht-zugewiesene Bl5cke auf der 
Platte. Es iiberschreibt niemals existierende Daten. Ein neuer Konsistenz- 
punkt tritt auf, wenn der Finsfo-BIock dadurch aktualisiert wird, daB eine 
neue Haupt-Inode fur die Inodendatei in ihn eingeschrieben wird. Solange 
die Haupt-Inode nicht aktualisiert wird, andert sich also der Zustand des 
Dateisystems auf der Platte nicht. 

Die vorliegende Erfindung schafft auBerdem Schnappschusse, bei denen es 
sich urn virtuelle, ausschlieBlich lesbare Kopien des Dateisystems handelt. 
Ein SchnappschuB nimmt keinen Plattenspeicherplatz in Anspruch, wenn 
er am Anfang erzeugt wird. Er ist derart ausgestaltet, daB zahb-eiche ver- 
schiedene Schnappschusse fur ein imd dasselbe Dateisystem erzeugt wer- 
den konnen. Im Gegensatz zu herkommlichen Dateisystemen, die einen 
Klon durch Duplizieren des gesamten Inoden-Dateisatzes und samtlicher 
indirekter Blocke duplizieren, dupliziert die vorliegende Erfindung nur 
diejenige Inode, die die Inodendatei beschreibt. Der also tatsachlich beno- 
tigte Plattenspeicherplatz fur eine Momentaufhahme betragt lediglich 128 
Bytes, die zum Speichem der duphzierten Inode verwendet werden. Die 
128 Bytes, die erfindungsgemaB fur eine Momentaufiiahme oder einen 
SchnappschuB benotigt werden, sind deutlich weniger als die zahkeichen 
Megabytes, die fur einen Klon im Stand der Technik ben5tigt werden. 

Die vorliegende Erfindung verhindert, daB neue Daten, die in das aktive 
Dateisystem geschrieben werden, „alte" Daten, die Teil eines oder mehre- 
rer Schnappschusse sind, iiberschreiben. Notwendig ist, daB alte Daten 
solange nicht uberschrieben werden, wie sie Teil eines Schnappschusses 
sind. Erreicht wird dies durch Verwendung einer freien Mehrfachbit- 
Blockabbildung. Die meisten zum Stand der Technik gehorigen Dateisy- 
Sterne verwenden eine freie Blockabbildung mit einem einzelnen Bit pro 
Block, um anzugeben, ob ein Block zugewiesen ist oder nicht. Die vorlie- 
gende Erfindung verwendet eine Blockabbildung mit 32-Bit-Eintt^gen. Ein 
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erstes Bit gibt an, ob ein Block von dem aktiven Dateisystem venvendet 
wird, und 20 verbleibende Bits werden fur bis zu 20 Schnappschusse ver- 
wendet, allerdings konnen einige Bits der 3 1 Bits fiir andere Zwecke ver- 
wendet werden. 

5 

KUR2E BESCHREffiUNG DER ZEICHNUNGEN 

Figiir 1 ist ein Blockdiagramm eines zum Stand der Technik zahlenden 
,,Klons" eines Dateisystems. 

10 

Figur 2 ist ein Diagramm, welches eine Liste von Inoden mit xinsauberen 
Puffem veranschaulicht. 

Figur 3 ist ein Diagramm, das eine platteninteme Inode des WAFL dar- 
15 stellt. 

Figuren 4A-4D sind Diagramme, die platteninteme Inoden von WAFL mit 
imterschiedlichen Umwege-Ebenen veranschaulichen. 

20 Figur 5 ist ein FluBdiagramm des Verfahrens zum Erzeugen eines Konsi- 
stenzp\mkts. 

Figur 6 ist ein FluBdiagramm zur Veranschaulichung des Schritts 530 aus 
Figur 5 zum Erzeugen eines Konsistenzpunkts. 

25 

Figur 7 ist ein FluBdiagramm zum Veranschaulichen des Schritts 530 in 
Figur 5 zum Erzeugen eines Schnappschusses. 

Figur 8 ist ein Diagramm zum Veranschaulichen einer Intem-Inode des 
30 WAFL gemaB der Erfindung. 

Figur 9A-9D sind Diagramme, die Intem-Inoden des WAFL mit unter- 
schiedlichen Umwege-Ebenen gemaB der Erfindung darstellen. 
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Figur 10 ist ein Diagramm zum Veranschau lichen einer Intem-Inode 1020 
fur eine Datei. 

Figuren IIA-IID sind Diagramme zum Veranschaulichen einer Blockab- 
bilddatei (blkmap) gemaB der Erfindung. 

Figur 12 ist ein Diagramm zum Veranschaulichen einer erfindungsgema- 
Ben Inoden-Datei. 

Figuren 13A-13B sind Diagramme zum Veranschaulichen einer Inodenab- 
bild-Datei (inomap) gemaB der Erfmdimg. 

Figur 14 ist ein Diagramm zum Veranschaulichen eines erfindungsgema- 
Ben Verzeichnisses. 

Figur 15 ist ein Diagramm zum Veranschaulichen einer Dateisysteminfor- 
mationsstruktur (fsinfo). 

Figur 16 ist ein Diagramm zum Veranschaulichen des WAFL- 
Dateisystems. 

Figuren 17A-17L sind Diagramme zimi Veranschaulichen des Erzeugens 
eines Konsistenzpimkts. 

Figuren 18A-18C sind Diagramme zum Veranschaulichen des Erzeugens 
eines Schnappschusses. 

Figur 19 ist ein Diagramm zimi Veranschaulichen von Anderungen einer 
Inodendatei. 

Figur 20 ist ein Diagramm zum Veranschaulichen von fsinfo-Blocken, die 
zum Halten eines Dateisystems in einem konsistenten Zustand verwendet 
werden. 



n 

Figuren 21A-21F sind detaillierte Diagramme zum Veranschaulichen des 
Erzeugens eines Schnappschusses. 

Figur 22 ist ein Diagramm zum Veranschaulichen eines aktiven WAFL- 
5 Dateisystems mit drei Schnappschussen, die jeweils eine gemeinsame Da- 
tei referenzieren; und 

Figuren 23A-23B sind Diagramme zimi Veranschaulichen der Aktualisie- 
nmg einer Zugriffszeit, 

10 

DETAILLIERTE BESCHREffiUNG DER ERFINDUNG 

Beschrieben wird ein System zum Erzeugen von axisschlieBlich lesbaren 
Kopien eines Dateisystems (einer Datenbank). In der folgenden Beschrei- 

15 bung werden zahhreiche spezifische Einzelheiten, so zmn Beispiel Anzahl 
und Beschaffenheit von Flatten, Plattenblock-GroCen etc. im einzelnen 
beschrieben, xrni eine ausfuhrlichere Beschreibimg der Erfindvmg anzubie- 
ten. Es ist jedoch fur den Fachmann ersichtlich, daB die Erfindxmg auch 
ohne diese spezifischen Einzelheiten ausgefuhrt werden kann. Andererseits 

20 wurden bekannte Merkmale nicht im einzelnen beschrieben, imi die Erfin- 
dxmg nicht in unnotiger Weise zu verundeutlichen. 

WRITE-ANYWHERE-DATEISYSTEM-LAYOUT 

25 Die vorliegende Erfindung macht Gebrauch von einem Write-Anywhere- 
Dateisystem-Layout (WAFL von Write Anywhere File-system Layout), 
also von einer Dateisystem-Konfiguration, die ein Aufzeichnen oder 
Schreiben an beliebiger Stelle ermoglicht Das Plattenformatsystem beruht 
auf Blocken (das heiBt 4 KB Bl5cken, die keine Fragmente besitzen), ver- 

30 wendet Inoden zum Beschreiben seiner Dateien, imd enthalt Verzeichnisse, 
die einfach speziell formatierte Dateien sind. WAFL verwendet Dateien 
zum Speichem von Meta-Daten, welche das Layout des Dateisystems be- 
schreiben. Die WAFL-Meta-Dateien beinhalten: eine Inodendatei, eine 
Blockabbild-Datei (blkmap) und eine Inodenabbilddatei (inomap). Die 
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Inodendatei enthalt die Inodentabelle fiir das Dateisystem. Die blkmap- 
Datei gibt an, welche Platten-Blocke zugeordnet sind. Die inomap-Datei 
gibt an, welche Inoden zugeordnet sind. Weiter unten werden Unterschei- 
dungsmerkmale fur platteninteme und WAFL-inteme Inoden diskutiert. 

Platteninteme WAFL-Inoden 

WAFL-Inoden unterscheiden sich von herkommlichen Inoden. Jede 
WAFL-Inode verweist auf 16 Blocke mit gleicher Umwegeebene. Eine 
Blocknximmer ist 4 Bytes lang. Die Verwendung von Blocknummem mit 
gleicher Umwegeebene in einer Diode erleichtert die rekursive Verarbei- 
timg einer Datei. Figur 3 ist ein Blockdiagramm, das eine platteninteme 
Inode 310 veranschaulicht. Die platteninteme Inode 310 besteht aus Stan- 
dard-Inodeninformation 31 OA sowie 16 BIocknummem-Eintragen 31 OB 
gleicher Umwegeebene. Die Inodeninformation 31 OA umfaBt Information 
iiber den Inhaber einer Datei, Berechtigungen, DateigroBe, Zugriffszeit, 
etc., wie dies dem Fachmann alles bekannt ist. Im Gegensatz zu bekannten 
Inoden, die eine Mehrzahl von Blocknummem unterschiedlicher Umwe- 
geebenen aufweisen, ist die platteninteme Inode 310 anders. Durch Halten 
samtlicher Blocknummemeintrage 31 OB innerhalb einer Inode 310 auf 
gleicher Umwegeebene wird die Implementierung des Dateisystems ver- 
einfacht. 

Fur eine kleine Datei mit einer GroBe von 64 Bytes oder weniger werden 
Daten direkt in der Inode selbst anstatt in Form von 16 Blocknummem 
gespeichert. Figur 4 A ist ein Diagranun, das eine Inode 410 der Ebene 0 
veranschaulicht, die der in Figur 3 gezeigten Inode 310 ahnelt. Allerdings 
enthalt die Inode 410 64 Bytes Daten 41 OB anstelle von 16 Blocknummem 
31 OB. Deshalb brauchen Plattenblocke bei sehr kleinen Dateien nicht zu- 
gewiesen zu werden. 

Fur eine Datei mit einer GroBe von weniger als 64 KB nimmt jede der 16 
Blocknummem direkt auf einen 4-KB-Datenblock Bezug. Figur 4B ist ein 
Diagramm, welches eine Inode 310 der Ebene 1 mit 16 Blocknummem 
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31 OB veranschaulicht. Die Blocknummerneintrage 0-15 verweisen auf 
entsprechende 4-KB-Datenbl6cke 420A-420C. 

Fur eine Datei mit einer GroBe, die gleich oder groBer ist als 64 KB und 
5 kleiner als 64 MB ist, nimint jede der 16 Blocknummem Bezug auf einen 
einfach-indirekten Block. Seinerseits enthalt jeder einzeln indirekte 4-KB- 
Block 1024 Blocknummem, die 4 KB-Datenbl6cke referenzieren. Figur 
4C ist ein Diagramm, welches eine Inode der Ebene 4, 310, veranschau- 
licht, welche 16 Blocknxmmiem 310B enthalt, die 16 einfach-indirekte 

10 Blocke 430A-430C referenzieren. Wie in Figur 4C gezeigt ist, zeigt der 
Blocknimimemeintrag 0 auf einen einfach-indirekten Block 430A. Der 
einfach-indirekte Block 43 OA enthalt 1024 Blocknummem, die auf 4-KB- 
Datenblocke 440A-440C Bezug nehmen. In ahnlicher Weise kann jeder 
einfach-indirekte Block 430B-430C jeweils bis zu 1024 Datenblocke 

15 adressieren, 

Bei einer DateigroBe von mehr als 64 MB referenzieren die 16 Block- 
nummem der Inode doppelt-indirekte Blocke. Jeder doppelt-indirekte 4- 
KB-BIock enthalt 1024 Blocknummem, die auf entsprechende einfach- 

20 indirekte Blocke verweisen. Jeder einfach-indirekte Block wiederum ent- 
halt 1024 Blocknummem, die auf 4-KB-Datenblocke zeigen, Auf diese 
Weise lassen sich bis zu 64 GB adressieren. Figur 4D ist ein Diagramm 
einer Inode 310 der Ebene 3, die 16 Blocknummem 31 OB enthalt, wobei 
Blocknxmimemeintrage 0, 1 und 15 auf doppelt-indirekte Blocke 470 A, 

25 470B und 470C verweisen. Der doppelt-indirekte Block 470 A enthalt 1024 
Blocknummemeintrage 0-1023, die auf 1024 einfach-indirekte Bl5cke 
480A-480B zeigen. Jeder einfach-indirekte Block 480A-480B wiederum 
referenziert 1024 Datenblocke. Wie in Figur 4D gezeigt ist, referenziert 
der einfach-indirekte Block 480A 1024 Datenblocke 490A-490C, und der 

30 einfach-indirekte Block 480B ninrnit Bezug auf 1024 Datenblocke 490C- 
490F. 
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WAFL-inteme Inoden 

Figur 8 ist ein Blockdiagramm, das eine WAFL-inteme Inode 820 veran- 
schaulicht. Die interne Inode 820 enthalt die Information der platteninter- 
nen Inode 310 (dargestellt in Figur 3), eine WAFL-Puffer-Datenstmktur 
820A, auBerdem 16 Pufferzeiger 820B. Eine WAFL-inteme Inode besitzt 
eine GroBe von 300 Bytes. Ein WAFL-Puffer ist ein 4 KB umfassendes 
(speicher-)interaes Aquivalent der 4-KB-Bl6cke, die auf der Platte gespei- 
chert sind. Die Intem-Inode 820 unterscheidet sich von herkSmmlichen 
Inoden, welche Puffer mit xmterschiedlichen Umvt^egeebenen referenzie- 
ren. Jede Intern- WAFL-Inode 820 zeigt auf 16 Puffer mit gleicher Umwe- 
geebene. Ein Pufferzeiger hat eine Lange von 4 Bytes. Indem man samtli- 
che Pufferzeiger 820B in eine Inode 820 auf der gleichen Umwegeebene 
halt, vereinfacht man die Dateisystem-Implementierung. Die Intem-Inode 
820 enthalt auBerdem Intem-Information 820C, umfassend ein „Unsau- 
ber"-Flag, ein Inkonsistenzpunkt-Flag (IN_CP) sovno Zeiger fur eine Ver- 
kniipfungsliste. Das Unsauber-Flag gibt an, daB die Inode selbst modifi- 
ziert wurde oder daB sie Puffer referenziert, welche ihrerseits geandert 
wiu-den. Das IN_CP-Flag dient zimi Markieren einer Inode als in einem 
Konsistenzpunkt befindlich (wird xmten beschrieben). Die Zeiger fiir eine 
verknupfte Liste werden unten beschrieben. 

Figur 10 ist ein Diagramm, welches eine Datei veranschaulicht, die durch 
eine WAFL-Inode 1010 referenziert wird. Die Datei enthalt indirekte 
WAFL-Puffer 1020-1024 und direkte WAFL-Puffer 1030-1034: die 
WAFL-Intem-Inode 1010 enthalt Standard-Inoden-Information 101 OA 
(einschlieBlich eines Zahlers fur unsaubere Puffer), eine WAFL- 
Pufferdatenstruktur lOlOB, 16 Pufferzeiger lOlOC und eine standardmaBi- 
ge platteninteme Inode 101 OD. Die interne WAFL-Inode 1010 hat eine 
GroBe von etwa 300 Bytes. Die platteninteme Inode hat eine GroBe von 
128 Bytes. Die WAFL-Pufferdatenstmktur lOlOB umfaBt zwei Zeiger, von 
denen der erste die 16 Pufferzeiger 10 IOC und der zweite platteninteme 
Blocknummem lOlOD referenziert. 
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Jede Inode 1010 besitzt eine Zahlung von unsauberen PufFem, auf die sie 
Bezug nimmt. Eine Inode 1010 kann in die Liste unsauberer Inoden 
und/oder die Liste von Inoden eingegeben werden, welche unsaubere Puf- 
fer aufweisen. Wenn samtliche von einer Inode referenzierten unsauberen 

5 Puffer fur die Aufzeichnung auf Platte vorgesehen sind oder auf Platte auf- 
gezeichnet werden, wird die Zahlung der unsauberen Puffer fur Inode 1010 
auf Null gesetzL Die Inode 1010 wird dann entsprechend ihrem Flag neu in 
Warteschlange gestellt (das heiBt in diesem Fall gibt es keine unsauberen 
Puffer). Diese Inode 1010 wird geloscht, bevor die nachste Inode verarbei- 

10 tet wird. AuBerdem wird das Flag der Inode geloscht, welches angibt, daB 
die Inode sich in einem Konsistenzpunkt befindet. Die Inode 1010 selbst 
wird in einem Konsistenzpunkt auf Platte geschrieben. 

Die WAFL-Pufferstniktur ist dargestellt dxirch einen indirekten WAFL- 
1 5 Puffer 1 020. Der WAFL-Puffer 1 020 enthalt eine WAFL- 
Pufferdatenstniktur 1020 A, einen 4-KB-Puffer 1020B mit 1024 WAFL- 
Pufferzeigem und einen 4-KB-Puffer 1020C mit 1024 plattenintemen 
Blocknummem. Die WAFL-Pufferdatenstruktur hat eine GroBe von 56 
Bytes und enthalt zwei Zeiger. Ein Zeiger der WAFL-Pufferdatenstruktur 
20 1020A referenziert den 4-KB-Puffer 1020B, xmd ein zweiter Zeiger refe- 
renziert den Puffer 1020C. In Figur 10 zeigen die 16 Pufferzeiger lOlOC 
der WAFL-Inode 1010 auf die 16 einfach-indirekten WAFL-Puffer 1020- 
1024. Der WAFL-Puffer 1020 wiederum referenziert 1024 direkte WAFL- 
Pufferstrukturen 1030-1034. Der WAFL-Puffer 1030 steht reprasentativ 
25 fur direkte WAFL-Puffer. 

Der direkte WAFL-Puffer 1030 enthalt eine WAFL-Pufferdatenstruktur 
1030A und einen 4-KB-Direktpuffer 1030B, der eine gecachete Version 
eines entsprechenden plattenintemen 4-KB-Datenblocks enthalt. Der direk- 
30 te WAFL-Puffer 1030 enthalt nicht einen 4-KB-Puffer wie den Puffer 
1020C des Indirekt-WAFL-Puffers 1020. Der zweite Pufferzeiger der 
WAFL-Pufferdatenstruktur 1030A wird auf Null gesetzt und zeigt daher 
nicht auf einen zweiten 4-KB-Puffer. Dies verhindert eine nicht effiziente 



Verwendung von Speicher, da ansonsten Speicherbereich fur einen unbe- 
nutzten Puffer bereitgestellt wurde. 

In einem WAFL-Dateisystem, wie es in Figur 10 gezeigt ist, referenziert 
eine interne WAFL-Inodenstruktur 1010 einen Baum von WAFL- 
Pufferstrukturen 1020-1024 und 1030-1034. Dieser ahnelt einem Baum 
von plattenintemen Blocken, die durch Standard-Inoden referenziert w^er- 
den, welche Blocknummem aufweisen, die auf indirekte und/oder direkte 
Blocke zeigen. Damit enthalt die WAFL-Inode 1010 nicht nur die 16 Vo- 
lumen-Blocknummem enthaltende platteninteme Inode 101 OD, sondem 
enthalt auBerdem 16 Pufferzeiger lOlOC, v^elche auf WAFL- 
Pufferstrukturen 1020-1024 und 1030-1034 zeigen. WAFL-Puffer 1030- 
1034 enthalten gecachete Inhalte von Blocken, die durch Volumen- 
Blockniunmem referenziert werden. 

Die WAFL-Intem-Inode 1010 enthalt 16 Pufferzeiger lOlOC. Ihrerseits 
werden die 16 Pufferzeiger 10 IOC durch eine WAFL-Pufferstruktur 101 OB 
referenziert, die die Wurzel fur den Baum aus WAFL-Puffem 1020-1024 
und 1030-1034 bildet Somit enthalt jede WAFL-Inode 1010 eine WAFL- 
Pufferstruktur lOlOB, die auf die 16 Pufferzeiger 101 OC innerhalb der 
Inode 1010 zeigt. Dies erleichtert die rekursive Implementienmg von Al- 
gorithmen zum Handhaben von Puffer-Baumen. Wenn die 16 Pufferzeiger 
10 IOC innerhalb der Inode 1010 nicht dxu-ch eine WAFL-Pufferstruktur 
lOlOB reprasentiert vmrden, lieBe sich der rekursive Algorithmus zum 
Bearbeiten des gesamten Baums von Puffem 1020-1024 xmd 1030-1034 
nur schwer implementieren. 

Figuren 9A-9D sind Diagramme, die Inoden mit unterschiedlichen Umwe- 
geebenen zeigen. In Figuren 9A-9D sind zur Darstellung der Indirektheit 
Oder der Umwege indirekte und direkte WAFL-Puffer dargestellt. Aller- 
dings sollte gesehen werden, daB die WAFL-Puffer in Figur 9 entspre- 
chende indirekte oder direkte Puffer aus Figur 10 reprasentieren. Bei einer 
kleinen Datei mit einer GroBe von 64 Bytes oder weniger werden Daten 
direkt in der Inode selbst gespeichert, und nicht die 16 Pufferzeiger. Figur 
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9A ist ein Diagramm, das eine Inode 820 der Ebene Null veranschaulicht, 
bei der es sich um die gleiche Inode handelt wie die Inode 820 in Figur 8, 
nur daB die Inode 820 an Stelle von 16 Pufferzeigem 820B nunmehr 64 
Datenbytes 920B enthalt. Deshalb werden bei sehr kleinen Dateien keine 
5 zusatzlichen Puffer zugewiesen. 

Bei einer Datei mit einer GroBe von weniger als 64 KB referenziert jeder 
der 16 PufFerzeiger direkt einen direkten 4-KB-WAFL-Puffer. Figur 9B ist 
ein Diagramm einer Inode 820 der Ebene 1 mit 16 Pufferzeigem 820B, Die 
10 Pufferzeiger PTR0-PTR15 zeigen auf entsprechende direkte 4-KB-WAFL- 
Puffer 922A-922C. 

Bei einer Datei, die groBer oder gleich 64 KB und kleiner als 64 MB ist, 
referenziert jeder der 16 Pufferzeiger einen einfach-indirekten WAFL- 

15 Puffer. Jeder einfach-indirekte 4-KB-WAFL-Puffer seinerseits xunfaBt 
1024 Pufferzeiger, welche 4-KB-Direkt-WAFL-Puffer referenzieren. Figur 
9C ist ein Diagramm einer Inode 820 der Ebene 2 mit 16 Pufferzeigem 
820B, welche 16 einfach-indirekte WAFL-Puffer 930A-930C referenzie- 
ren. GemaB Figur 9C zeigt der Pufferzeiger PTRO auf einen einfach- 

20 indirekten WAFL-Puffer 930A. Der einfach-indirekte WAFL-Puffer 930A 
enthalt 1024 Zeiger, die 4-KB-Direkt- WAFL-Puffer 940A-940C referen- 
zieren. In ahnlicher Weise konnen einfach-indirekte WAFL-Puffer 930B- 
930C jeweils bis zu 1024 direkte WAFL-Puffer adressieren. 

25 Bei einer DateigroBe von mehr als 64 MB referenzieren die 1 6 Pufferzei- 
ger der Inode doppelt-indirekte WAFL-Puffer. Jeder 4 KB xmifassende, 
doppelt-indirekte WAFL-Puffer enthalt 1024 Zeiger, die auf zugehorige 
einfach-indirekte WAFL-Puffer zeigen. Jeder einfach-indirekte WAFL- 
Puffer seinerseits umfaBt 1024 Zeiger, die auf direkte 4 KB-WAFL-Puffer 

30 zeigen. Damit konnen bis zu 64 GB adressiert werden. Figur 9D ist ein 
Diagramm einer Inode 820 der Ebene 3 mit 16 Zeigem 820B, wobei Zei- 
ger PTRO, PTRl und PTR15 doppelt-indirekte WAFL-Puffer 970 A, 970B 
bzw. 970C referenzieren. Der doppelt-indirekte WAFL-Puffer 970A ent- 
halt 1024 Zeiger, die auf 1024 einfach-indirekte WAFL-Puffer 980A-980B 
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zeigen. Jeder einfach-indirekte WAFL-Puffer 980A-980B wiedenun refe- 
renziert 1024 direkte WAFL-Puffer. Wie in Figur 9D zu sehen ist, referen- 
ziert der einfach-indirekte WAFL-Puffer 980A 1024 direkte WAFL-PufFer 
990A-990C, und der einfach-indirekte WAFL-Puffer 980B referenziert 
1024 direkte WAFL-Puffer 990D-990F. 

Verzeichnisse 

Verzeichnisse innerhalb des WAFL-Systems sind in 4-KB-Bl6cken ge- 
speichert, welche in zwei Abschnitte aufgeteilt sind. Figur 14 ist ein Dia- 
gramm, das einen Verzeichnisblock 1410 gemaB der Erfindung veran- 
schaulicht. Jeder Verzeichnisblock 1410 enthalt einen ersten Abschnitt 
1410A mit Verzeichniseintrag-Strukturen 1412-1414 fester Lange, und 
einen zweiten Abschnitt 1410B, der die aktuellen Verzeichnisnamen 1416- 
1418 enthalt. Jeder Verzeichniseintrag enthalt auBerdem eine Datei-ID, das 
heiBt eine Datei-Kennung und eine Generation. Diese Information kenn- 
zeichnet, welche Datei der Eintrag referenziert. Diese Information ist im 
Stand der Technik bekannt und deshalb in Figur 14 nicht dargestellt. Jeder 
Eintrag 1412-1414 im ersten Abschnitt 141 OA des Verzeichnisblocks be- 
sitzt einen Zeiger auf seinen Namen innerhalb des 2:weiten Abschnitts 
1410B, AuBerdem enthah jeder Eintrag 1412-1414 einen Hash- Wert, ab- 
hangig von seinem Namen in dem zweiten Abschnitt 141 OB, so daB der 
Name nur untersucht wird, wenn es zu einem Hash-Trefifer (einer Hash- 
Ubereinstimmung) kommt. Beispielsweise enthalt der Eintrag 1412 des 
ersten Abschnitts 1410A einen Hash- Wert 1412A und einen Zeiger 1412B. 
Der Hash- Wert 1412A ist ein Wert, der von dem Verzeichnis-Namen 
„VERZEICHNIS_ABC" abhangt, der in dem Eintrag variabler Lange 1416 
des zweiten Abschnitts 1410B abgespeichert ist. Der Zeiger 1412B des 
Eintrags 1410 zeigt auf den Eintrag variabler Lange, 1416, des zweiten 
Abschnitts 1410B. Unter Verwendung von Verzeichniseintragen fester 
Lange, 1412-1414 in dem ersten Abschnitt 141 OA beschleimigt sich der 
Vorgang des Namen-Nachschauens. Zum Auffinden des nachsten Eintrags 
innerhalb eines Verzeichnisblocks 1410 ist keine Rechnung erforderlich. 
Durch Halten der Eintrage 1412-1414 in dem ersten Abschnitt 1410A auf 
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einem kleinen Wert verbessert sich die Trefferrate fur Dateisysteme mit 
einem Zeilenfuller-Datencache. 

Meta-Daten 

5 

WAFL fuhrt Information, die ein Dateisystem in Dateien beschreibt, wel- 
che als Meta-Daten bekannt sind. Meta-Daten umfassen eine Inodendatei, 
eine inomap-Datei nnd eine blkmap-Datei, WAFL speichert seine Meta- 
Daten in Dateien, die irgendwo auf einer Platte aufgezeichnet werden kon- 
10 nen. Weil samtliche WAFL-Meta-Daten in Dateien gefiihrt werden, lassen 
sie sich an eine beliebe Stelle schreiben, so wie jede andere Datei inner- 
halb der Datenbank. 

Eine erste Metadaten-Datei ist die , Jnodendatei", die Inoden enthalt, wel- 

15 che samtliche anderen Dateien iimerhalb der Datenbank beschreiben. Figur 
12 ist ein Diagramm einer Inodendatei 1210. Die Inodendatei 1210 kaiin 
irgendwo auf einer Platte aufgezeichnet werden, im Gegensatz zu bekann- 
ten Systemen, welche ,Jnodentabellen" auf eine feste Stelle der Platte 
schreiben. Die Inodendatei 1210 enthalt eine Inode 1210A-1210F fiir jede 

20 Datei innerhalb des Dateisystems, ausgenommen die Inodendatei 1210 
selbst. Gezeigt wird auf die Inodendatei 1210 durch eine als die „Wurzeli- 
node" bezeichnete Inode. Die Wxirzelinode wird an einer festen Stelle auf 
der Platte gehalten, bezeichnet als weiter imten noch zu beschreibender 
Dateisysteminformationsblock (fsinfo-Block). Die Inodendatei 1210 selbst 

25 ist in 4-KB-Blocken auf der Platte (oder 4-KB-PufFem im Speicher) abge- 
speichert Figur 12 veranschaulicht, daB Inoden 1210A-1210C in einem 4- 
KB-PufFer 1220 gespeichert sind. Fur GroBen von plattenintemen Inoden 
von 128 Bytes imifafit ein 4-KB-PufFer (oder Block) 32 Inoden. Die Intem- 
Inodendatei 1210 setzt sich zusanunen aus WAFL-Puffem 1220. Wenn 

30 eine Intem-Inode (das heiBt 121 OA) geladen wird, wird der platteninteme 
Inodenteil der Intem-Inode 1210A fur den Puffer 1220 der Inodendatei 
1210 einkopiert. Die Pufferdaten selbst werden von der Platte her geladen. 
Das Schreiben von Daten auf die Platte erfolgt in umgekehrter Reihenfol- 
ge. Die Intem-Inode 1210A, die eine Kopie der plattenintemen Inode ist. 
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wird in den entsprechenden Puffer 1220 der Inodendatei 1210 kopiert. An- 
schlieBend wird die Inodendatei 1210 fiir das Schreiben zugewiesen, und 
die in dem Puffer 1220 der Inodendatei 1210 gespeicherten Daten werden 
auf die Platte geschrieben. 

Eine weitere Metadaten-Datei ist die ,31ockabbild"-Datei (blkmap-Datei). 
Figur llA ist ein Diagramm, welches eine blkmap-Datei 1110 zeigt. Die 
blkmap-Datei 1110 enthalt einen 32 Bits umfassenden Eintrag lllOA- 
lllOC fur jeden 4-KB-Block innerhalb des Plattenlaufwerksystems. Sie 
dient auBerdem als Abbilddatei fur freie Blocke. Die blkmap-Datei 1110 
gibt an, ob ein Plattenblock belegt wurde oder nicht. Figur 1 IB ist ein Dia- 
gramm eines Blockeintrags lllOA der blkmap-Datei 1110 (dargestellt in 
Figiu: 11 A). Wie in Figur IIB gezeigt ist, umfaBt der Eintrag lllOA 32 
Bits (BIT0-BIT31). Bit 0 (BITO) des Eintrags lllOA ist das Aktiv- 
Dateisystem-Bit (FS-Bit). Das FS-Bit des Eintrags lllOA gibt an, ob der 
entsprechende Block Teil des aktiven Dateisystems ist oder nicht. Die Bits 
1-20 (BIT1-BIT20) des Eintrags lllOA sind Bits, welche angeben, ob der 
Block Teil eines entsprechenden Schnappschusses (Zwischensichemng) 1- 
20 ist. Die nachsten oberen 10 Bits (BIT21-BIT30) sind reserviert. Bit 31 
(BIT31) ist das Konsistenzpimkt-Bit (CP-BIT) des Eintrags 1 1 lOA, 

Ein Block ist als ein freier Block in dem Dateisystem daim verfugbar, 
werm samtliche Bits (BIT0-BIT31) in dem 32 Bit umfassenden Eintrag 
1 1 lOA fur den Block geioscht sind (auf einen Wert 0 zuruckgesetzt). Figur 
1 IC ist ein Diagramm, welches den Eintrag 11 lOA der Figur 1 lA veran- 
schaulicht, wenn dieser anzeigt, daB der Plattenblock frei ist. Demnach ist 
der durch den Eintrag 1 1 lOA der blkmap-Datei 1110 referenzierte Block 
dann frei, wenn die Bits 0-31 (BIT0-BIT31) samtlich einen Wert 0 haben. 
Figur 1 ID ist ein Diagramm, welches den Eintrag 1 1 lOA der Figur 1 lA in 
dem Zustand zeigt, in welchem er einen belegten Block in dem aktiven 
Dateisystem angibt. Wenn das Bit 0 (BITO), auch als FS-Bit bezeichnet, 
auf einen Wert 1 gesetzt ist, kennzeichnet der Eintrag 1 1 lOA der blkmap- 
Datei 1110 einen Block, der Teil des aktiven Dateisystems ist. Bits 1-20 
(BIT1-BIT20) dienen zum Anzeigen entsprechender Schnappschusse, falls 
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vorhanden, die den Block referenzieren. Schnappschusse werden unten im 
einzelnen erlautert. Werm das Bit 0 (BITO) auf einen Wert 0 gesetzt ist, so 
zeigt dies nicht iinbedingt an, daB der Block fur die Belegung zur Verfu- 
gung steht. Samtliche SchnappschuB-Bits miissen 0 sein, damit der Block 
5 zugewiesen werden kann. Bit 31 (BIT31) des Eintrags lllOA hat stets 
denselben Zustand als Bit 0 (BITO) auf der Platte, wird aber, wenn er in 
das Speicherbit 31 (BIT31) geladen wird, zur Buchfuhning als Teil eines 
Konsistenzpunkts verwendet. 

10 Eine weitere Metadaten-Datei ist die „Inodenabbild"-Datei (inomap- 
Datei), die als ein Abbild fur freie Inoden dient. Figur 13A ist ein Dia- 
granun, welches eine Inodenabbild-Datei veranschaulicht. Die inomap- 
Datei 1310 enthalt einen 8 Bits umfassenden Eintrag 1310A-1310C fur 
jeden Block innerhalb der in Figur 12 gezeigten Inoden-Datei 1210. Jeder 

15 Eintrag 1310A-1310C ist eine Zahlung zugeordneter oder belegter Inoden 
in dem entsprechenden Block innerhalb der Inoden-Datei 1210. Figur 13A 
zeigt Werte 32,5 bzw. 0 in den Eintragen 1310A-1310C. Die Inoden-Datei 
1210 muB noch inspiziert werden, um herauszufinden, welche Inoden in * 
dem Block frei sind, dies erfordert jedoch nicht das Umladen groBerer 

20 Mengen beliebiger Blocke von der Platte in den Speicher. Da jeder 4-KB- 
Block 1220 der Inodendatei 1210 32 Inoden aufhimmt, kann der 8 Bits 
umfassende inomap-Eintrag 1310A-1310C fur jeden Block in der Inoden- 
Datei 1210 Werte annehmen, die zwischen 0 und 32 liegen. Wenn ein 
Block 1220 einer Inoden-Datei 1210 keine Inoden im Gebrauch hat, so ist 

25 der Eintrag 1310A-1310C fur ihn innerhalb der Inomap-Datei 1310 „0". 
Wenn samtliche Inoden in dem Block 1220 der Inodendatei 1210 im Ge- 
brauch sind, hat der Eintrag 1310A-1310C der inomap-Datei 1310 einen 
Wert 32. 

30 Figur 13B ist ein Diagramm, das eine inomap-Datei 1350 veranschaulicht, 
welche die 4-KB-B16cke 1340A-1340C der Inoden-Datei 1340 referen- 
ziert. Beispielsweise speichert die Inoden-Datei 1340 37 Inoden in drei 4- 
KB-Blocken 1340A-1340C. Blocke 1340A-1340C der Inoden-Datei 1340 
enthalten 32,5 bzw. 0 verwendete Inoden. Eintrage 1350A-1350C der 
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blkmap-Datei 1350 referenzieren Blocke 1340A-1340C der Inoden-Datei 
1340. Damit haben die Eintrage 1350A-1350C der inomap-Datei Werte 
von 32,5 und 0 fur Blocke 1340A-1340C der Inoden-Datei 1340. Die Ein- 
trage 1350A-1350C der inomap-Datei wiederum kennzeichnen 0,27 bzw. 
5 32 freie Inoden in den Blocken 1340A-1340C der Inoden-Datei 1340. 

Bezugnehmend auf Figur 13 ist die Verwendung einer bitweisen Moment- 
aufnahme fur die Eintrage 1310A-1310C der inomap-Datei 1310 an Stelle 
von Zahlwerten deshalb von Nachteil, weil vier Bytes pro Eintrag 1310A- 
10 1310C fur den Block 1220 der Inoden-Datei 1210 (in Figur 12 dargestellt), 
und nicht nur ein Byte erforderlich waren. Freie Inoden im Block bzw. in 
den Blocken 1220 der Inoden-Datei 1210 mussen innerhalb der inomap- 
Datei 1310 deshalb nicht angezeigt werden, weil die Inoden selbst diese 
Information enthalten. 

15 

Figur 15 ist ein Diagramm, welches eine Dateisysteminformationsstniktur 
(fsinfo) 1510 veranschaulicht. Die Wurzelinode 1510B eines Dateisystems 
wird an einer festen Stelle auf der Platte gehalten, so dafi sie beim Booten 
des Dateisystems geortet werden kann. Der fsinfo-Block ist keine Metada- 

20 ten-Datei, sondem Teil des WAFL-Systems. Die Wurzelinode 1510B ist 
eine Inode, die auf die Inoden-Datei 1210 Bezug nimmt. Sie ist Teil der 
Dateisysteminfonmationsstruktur (fsinfo) 1510, die aufierdem Information 
1510A einschlieBlich der Anzahl von Blocken in dem Dateisystem, die 
Entstehimgszeit des Dateisystems etc. enthalt. Die vermischte Information 

25 1510A enthalt aufierdem eine Prufsumme 15 IOC (diese wird imten noch 
beschrieben). Mit Ausnahme der Wurzelinode 1510B selbst kann diese 
Information 1510A in einer Metadaten-Datei einer anderen Ausfuhrungs- 
form gehalten werden. In festen Platzen auf der Platte werden zwei identi- 
sche Kopien der fsinfo-Struktur 1510 gehalten. 

30 

Figur 16 ist ein Diagramm, welches das WAFL-Dateisystem 1670 in ei- 
nem konsistenten Zustand auf einer Platte mit zwei fsinfo-BIocken 1610 
und 1612, einer Inoden-Datei 1620, einer blkmap-Datei 1630, einer ino- 
map-Datei 1640, einem Wurzelverzeichnis 1650 und einer typischen Datei 
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(Oder einem Verzeichnis) 1660 zeigt. Die Inoden-Datei 1620 besteht aus 
mehreren Inoden 1620A-1620D, welche andere Dateien 1630-1660 in dem 
Dateisystem 1670 referenzieren. Die Inode 1620A der Inoden-Datei 1620 
referenziert die blkmap-Datei 1630. Die Inode 1620B referenziert die ino- 
map-Datei 1640. Die Inode 1620C referenziert das Wurzelverzeichnis 
1650. Die Inode 1620D referenziert eine typische Datei (oder ein typisches 
Verzeichnis) 1660. Somit zeigt die Inoden-Datei auf samtliche Dateien 
1630-1660 innerhalb des Dateisystems 1670, ausgenommen die fsinfo- 
Blocke 1610 und 1612. Die fsinfo-Blocke 1610 und 1612 enthalten jeweils 
eine Kopie 1610B bzw. 1612B der Inode der Inoden-Datei 1620. Weil die 
Wxirzelinode 1610B xind 1612B der fsinfo-Bl5cke 1610 xind 1612 die Ino- 
den-Datei 1620 beschreibt, die ihrerseits den Rest der Dateien 1630-1660 
in dem Dateisystem 1670 einschlieBlich samtlicher Metadaten-Dateien 
1630-1640 beschreibt, wird die Wuizelinode 1610B imd 1612B als die 
Wurzel eines Baums von Blocken betrachtet. Das WAFL-System 1620 
verwendet diese Baximstruktur fur ihr Aktualisierungsverfahren (Konsi- 
stenzpunkt) imd zum Implementieren von Schnappschussen, die beide xm- 
ten noch beschrieben werden. 

Liste von Inoden mit imsauberen Blocken 

Interne WAFL-Inoden (das heiBt die WAFL-Inode 1010 gemafi Figur 10) 
des WAFL-Dateisystems werden in unterschiedlich verknupften Listen 
entsprechend ihrem Status gehalten. Inoden, die sich auf imsaubere Blocke 
beziehen, werden in einer in Figur 2 gezeigten Liste fur imsaubere Inoden 
gehalten. Zulassige Daten enthaltende Inoden, die nicht unsauber sind, 
werden in einer separaten Liste gehalten, imd Inoden, die keine zulassigen 
Daten aufweisen, werden in einer noch weiteren Liste gefuhrt, wie dies im 
Stand der Technik bekannt ist Die vorliegende Erfindimg macht Gebrauch 
von einer Liste von Inoden mit imsauberen Datenblocken, was das Auffin- 
den samtlicher Inoden erleichtert, bei denen Schreibzuweisungen erforder- 
lich sind. 
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Figur 2 ist ein Diagramm, das eine Liste 210 unsauberer Inoden gemaO der 
Erfindung veranschaulicht. Die Liste 210 unsauberer Inoden enthalt 
WAFL-inteme Inoden 220-1750. Wie in Figur 17 gezeigt ist, enthalt jede 
WAFL-inteme Inode 220-250 einen Zeiger 220A-250A, der auf eine wei- 
tere Inode in der verknupften Liste zeigt. Beispielsweise sind WAFL- 
Inoden 220-250 im Speicher an Stellen 2048, 2152, 2878, 3448 bzw. 3712 
gespeichert. Dementsprechend enthalt der Zeiger 220A der Inode 220 die 
Adresse 2152. Sie verweist deshalb auf die WAFL-Inode 222. Die WAFL- 
Inode 222 wiederxun zeigt mit Hilfe der Adresse 2878 auf die WAFL- 
Inode 230. Die WAFL-Inode 230 verweist auf die WAFL-Inode 240. Die 
WAFL-Inode 240 zeigt auf die Inode 1750. Der Zeiger 250 der WAFL- 
Inode 250 enthalt einen Null- Wert und zeigt daher nicht auf eine weitere 
Inode. Somit ist sie die letzte Inode innerhalb der Liste 210 fur unsaubere 
Inoden. Jede Inode in der Liste 210 reprasentiert eine Datei aus einem 
Baum von Puffern, wie dies in Figur 10 dargestellt ist. Mindestens einer 
der von jeder Inode 220-250 referenzierte Puffer ist ein unsauberer Puffer. 
Ein \insauberer Puffer enthalt modifizierte Daten, die auf eine neue Spei- 
cherplattenstelle in dem WAFL-System geschrieben werden mussen. 
WAFL schreibt stets unsaubere Puffer auf neue Speicherstellen der Platte. 

KONSISTENZPUNKTE 

Die WAFL-Plattenstruktur, wie sie bisher beschrieben wurde, ist statisch. 
ErfindungsgemaC werden Andenmgen des Dateisystems 1670 streng ge- 
steuert, urn das Dateisystem 1670 in einem konsistenten Zustand zu halten. 
Das Dateisystem 1670 schreitet von einem selbstkonsistenten Zustand zu 
einem anderen selbstkonsistenten Zustand weiter. Die Menge (oder der 
Baum) selbstkonsistenter Blocke auf der Platte mit ihrem Ursprung in der 
Wurzelinode 1510B wird als Konsistenzpunkt (CP) referenziert. Um Kon- 
sistenzpunkte zu implementieren, schreibt WAFL stets neue Daten in 
nicht-zugewiesene Blocke auf der Platte. Es uberschreibt niemals existie- 
rende Daten. Solange also die Wurzelinode 151 OB nicht aktualisiert ist, 
andert sich der Zustand des Dateisystems 1670, wie er sich auf der Platte 
darstellt, nicht. Damit das Dateisystem 1670 aber brauchbar ist, muB es 
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gelegentlich auf neu geschriebene Daten Bezug nehmen, und deshalb muB 
dann ein neuer Konsistenzpunkt geschrieben werden. 

Bezugnehmend auf Figur 16, wird ein neuer Konsistenzpunkt dadurch ge- 
5 schrieben, daB zunachst samtliche Dateisystem-Blocke auf neue Stellen 
der Flatten umgeraumt werden (einschlieBlich der Blocke in Metadaten- 
Dateien, so wie die Inoden-Datei 1620, die blkmap-Datei 1630 und die 
inomap-Datei 1640). Eine neue Wurzelinode 161 OB und 1612B filr das 
Dateisystem 1670 wird dann auf die Platte geschrieben. Mit diesem Ver- 
io fahren zur automatischen Aktualisierung eines Dateisystems ist das plat- 
teninterne Dateisystem niemals inkonsistent. Das platteninteme Dateisy- 
stem 1670 reflektiert einen alten Konsistenzpimkt, bis die Wurzelinode 
1610B tmd 1612B geschrieben ist. Unmittelbar nach dem Schreiben der 
Wurzelinode 1610B und 1612B auf die Platte reflektiert das Dateisystem 
15 1670 einen neuen Konsistenzpimkt. Datenstrukturen des Dateisystems 
1670 konnen in beliebiger Reihenfolge aktualisiert werden, es gibt keiner- 
lei Ordnungsbeschrankungen bei plattenintemen Schreibvorgangen, aus- 
genommen das eine Erfordemis, gemaB dem samtliche Blocke in dem Da- 
teisystem 1670 auf die Platte geschrieben werden mussen, bevor die Wur- 
20 zelinode 1 6 1 OB imd 1 6 1 2B aktualisiert wird. 

Um in einen neuen Konsistenzpunkt umgewandelt werden zu konnen, muB 
die Wurzelinode 1610B xmd 1612B zuverlassig und elementar aktualisiert 
werden. WAFL tut dies dadiu^ch, daB zwei identische Kopien der fsinfo- 

25 Struktur 1610 xmd 1612 gehalten werden, welche die Wurzelinode 1610B 
imd 1612B enthalten. Wahrend der Aktualisierung der Wurzelinode 1610B 
und 1612B wird eine Kopie der fsinfo-Struktur 1610 auf die Platte ge- 
schrieben, anschlieBend wird die zweite Kopie der fsinfo-Struktur 1612 
geschrieben. Eine Prufsumme 16 IOC und 1612C in der fsinfo-Struktur 

30 1610 bzw. 1612 dient zum Feststellen des Auftretens eines Systemzusam- 
menbruchs, welches eine der Kopien der fsinfo-Struktur 1610 oder 1612, 
die jeweils eine Kopie der Wurzelinode enthalten, beim Schreiben auf die 
Platte verfalscht. Normalenveise sind die beiden fsinfo-Strukturen 1610 
und 1612 identisch. 
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Algorithmus zum Erzeugen eines Konsistenzpunkts 

Figur 5 ist ein Diagramm, welches das Verfahren zum Erzeugen eines 
Konsistenzpunkts veranschaulicht. Im Schritt 510 werden samtliche „un- 
sauberen" Inoden (also Inoden, die auf neue, modifizierte Daten enthalten- 
de Blocke zeigen) in dem System als im Konsistenzpunkt ihrer Inhalte 
befindlich markiert, und es wird nur ihr jeweiliger Inhalt auf die Platte 
geschrieben. Nur wenn diese Schreibvorgange abgeschlossen sind, durfen 
weitere Schreibvorgange aus anderen Inoden die Platte erreichen. AuBer- 
dem konnen wahrend der Zeit, in der unsaubere Schreibvorgange stattfin- 
den, keine neuen Modifikationen an Inoden vorgenommen werden, die 
sich in dem Konsistenzpimkt befinden. 

Zusatzlich zur Einstellung des Konsistenzpunkt-FIags fur samtliche unsau- 
beren Inoden, die Teil des Konsistenzpimkts sind, wird ein globales Konsi- 
stenzpunkt-Flag gesetzt, so daB seitens eines Benutzers angeforderte Ande- 
rungen sich in streng gesteuerter Weise verhalten. Nachdem das globale 
Konsistenzpunkt-Flag gesetzt ist, werden benutzerseitig angeforderte An- 
derungen, welche in dem Konsistenzpunkt befindliche Inoden beeinflus- 
sen, nicht zugelassen. Aufierdem wird nur Inoden mit gesetztem Konsi- 
stenzpunkt-Flag Plattenspeicherplatz fur ihre xmsauberen Blocke zugewie- 
sen. Folglich wird der Zustand des Dateisystems auf die Platte geraimit, 
genauso, wie dies zu Begirm des Konsistenzpunkts geschah. 

Im Schritt 520 werden regulare Dateien auf Platte geraumt. Das Raumen 
regularer Dateien xunfaBt den Schritt des Zuweisens von Plattenspeicher- 
platz fur unsaubere Blocke in den regularen Dateien, auBerdem das Schrei- 
ben der entsprechenden WAFL-PufFer auf die Platte. Die Inoden selbst 
werden anschlieBend in die Inoden-Datei geraumt (kopiert). Samtliche 
Inoden, die zu beschreiben sind, befinden sich entweder in der Liste von 
Inoden mit unsauberen Puffem oder in der Liste von Inoden, die unsauber 
sind, jedoch keine unsauberen Puffer enthalten. Wenn der Schritt 520 ab- 
geschlossen ist, gibt es keine weiteren regularen Inoden in dem Konsi- 
stenzpunkt, und samtliche ankonunenden E/A-Anforderungen verlaufen 
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erfolgreich, es sei derm, die Anforderungen verwenden Puffer, die fur Plat- 
ten-E/A-Operationen noch gesperrt sind, 

Im Schritt 530 werden Spezialdateien auf die Platte geraximt. Das Raumen 
von Spezialdateien ximfaBt den Schritt des Zuordnens von Plattenspeicher- 
platz fiir unsaubere Blocke in den beiden Spezialdateien: die Inoden-Datei 
und die blkmap-Datei, das Aktualisieren des Konsistenzbits (CP-Bit), da- 
mit Ubereinstimmung mit dem aktiven Dateisystem-Bit (FS-Bit) fur jeden 
Eintrag in der blkmap-Datei herrscht, und anschliefiendes Einschreiben der 
Blocke in die Platte. Die Schreibzuordnung der Inoden-Datei und der 
blkmap-Datei ist deshalb kompliziert, weil der Vorgang ihrer Schreibzu- 
weisung die Dateien selbst andert. Somit werden im Schritt 530 Schreib- 
vorgange gesperrt, wahrend diese Dateien geandert werden, um zu verhin- 
dem, dafi wichtige Blocke fiir Platten-E/A-Operationen gesperrt werden, 
bevor die Anderungen abgeschlossen sind. 

Im Schritt 530 werden auBerdem die imten noch beschriebenen Schritte 
des Erzeugens xmd Loschens von Schnappschussen durchgefuhrt, da dies 
der einzige zeitliche Punkt ist, zu welchem das Dateisystem — ausgenom- 
men den fsinfo-Block — vollstandig selbstkonsistent ist und gerade dabei 
ist, auf die Platte geschrieben zu werden. Ein SchnappschuB wird aus dem 
Dateisystem geloscht, bevor ein neuer erzeugt wird, so daB in einem 
Durchgang dieselbe SchnappschuB-Inode verwendet werden kann. 

Figur 6 ist ein Flufidiagramm, welches die Schritte darstellt, die der Schritt 
530 umfaBt, Schritt 530 ordnet Plattenspeicherraum fiir die blkmap-Datei 
imd die Inoden-Datei zu und kopiert das aktive FS-Bit in das CP-Bit fiir 
jeden Eintrag der blkmap-Datei. Dies garantiert, daB der Block in der Ino- 
den-Datei, der die Inode der blkmap-Datei enthalt, unsauber ist, so daB der 
Schritt 620 hierfur Plattenspeicherraum zuweist, 

Im Schritt 620 wird fiir samtliche unsauberen Blocke in der Inode und den 
bIkmap-Dateien Plattenspeicherplatz zugewiesen. Die unsauberen Blocke 
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enthalten den Block der Inoden-Datei, der die Inode der blkmap-Datei als 
iinsauberen Block enthalt. 

Im Schritt 630 wird die Inode fiir die blkmap-Datei emeut geraumt, aller- 
dings wird diesmal die aktuelle Inode in den vorab geraumten Block in der 
Inoden-Datei geschrieben, Schritt 610 hat bereits den Block der Inoden- 
Datei verfalscht, welche die Inode der blkmap-Datei enthalt. Damit 
braucht kein weiterer Schreibzuweisxingsschritt entsprechend dem Schritt 
620 geplant zu werden. 

Im Schritt 640 werden die Eintrage fiir jeden Block in der blkmap-Datei 
aktualisiert. Jeder Eintrag wird dadurch aktualisiert, daB das aktive FS-Bit 
in das CP-Bit kopiert wird (das heiBt Einkopieren des Bits 0 in das Bit 31), 
und zwar bei samtlichen Eintragen in imsauberen Blocken innerhalb der 
blkmap-Datei. 

Im Schritt 650 werden samtliche imsauberen Blocke in den blkmap- und 
Inoden-Dateien auf die Platte geschrieben. 

Nur fiir Eintrage in xmsauberen Blocken der blkmap-Datei mxiB das aktive 
Dateisystem-Bit (FS-Bit) im Schritt 640 in das Konsistenzpunkt-Bit (CP- 
Bit) kopiert werden. Unmittelbar nach einem Konsistenzpunkt besitzen 
samtliche blkmap-Eintrage denselben Wert sowohl fiir das aktive FS-Bit 
als auch das CP-Bit. Mit fortschreitender Zeit werden einige aktive FS-Bits 
von blkmap-Datei-Eintragen fur das Dateisystem entweder geloscht oder 
gesetzt. Die Blocke der blkmap-Datei, die geanderte FS-Bits enthalten, 
werden entsprechend als imsauber markiert. Wahrend des folgenden Kon- 
sistenzpunkts brauchen saubere Blocke nicht zuruckkopiert zu werden. Die 
sauberen Blocke werden deshalb nicht kopiert, sie an dem vorhergehenden 
Konsistenzpunkt nicht imsauber waren \md sich in den Blocken seitdem 
nichts geandert hat. Solange also das Dateisystem zu Beginn mit dem akti- 
ven FS-Bit und dem CP-Bit gleichen Werts in samtlichen blkmap- 
Eintragen erzeugt wurde, brauchen lediglich Eintrage bei imsauberen 
Blocken in jedem Konsistenzpunkt aktualisiert zu werden. 
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Bezugnehmend auf Figur 5 wird im Schritt 540 der Dateisysteminformati- 
onsblock (Fsinfo) aktualisiert xind dann auf die Platte geraumt. Der Fsinfo- 
Block wird dadurch aktualisiert, daJ3 in ihn fur die Inoden-Datei eine neue 
Wxurzelinode eingeschrieben wird. Der Fsinfo-Block wird zweimal ge- 
5 schrieben. Zuerst wird er an eine Stelle und dann an eine zweite Stelle ge- 
schrieben. Die zwei Schreibvorgange werden derart ausgefuhrt, daB dann, 
wenn wahrend des einen oder des anderen Schreibvorgangs ein Systemzu- 
sammenbruch erfolgt, auf der Platte ein selbstkonsistentes Dateisystem 
vorliegt. Bei einem Systenraisammenbruch wahrend des Schreibvorgangs 

10 des zweiten Fsinfo-Blocks ist dann entweder der neue Konsistenzpunkt 
verfugbar, oder es ist der vorhergehende Konsistenzpunkt (auf der Platte 
vor Beginn des jungsten Konsistenzpunkts) vorhanden, wenn der erste 
Fsinfo-Block ausgefallen ist. Wenn das Dateisystem nach einem System- 
ausfall neu gestartet wird, wird die hochste Generationenzahlung fiir einen 

15 Konsistenzpunkt in den Fsinfo-Blocken mit einem korrekten Prufsum- 
menwert verwendet. Dies wird weiter unten noch naher erlautert. 

Im Schritt 550 wird der Konsistenzpunkt abgeschlossen. Dies macht es 
erforderlich, daB jegliche unsaubere Inoden, die, weil sie nicht Teil des 

20 Konsistenzpunkts waren, neu in die Warteschlange gestellt werden. Samt- 
liche Dioden, die ihren Zustand wahrend des Konsistenzpunkts geandert 
haben, werden in die Konsistenzpunkt- Warteschlange (CP_WAIT) ge- 
stellt. Die CP_WAIT-Warteschlange enthalt Inoden, die sich vor AbschluB 
des Schritts 540 geandert haben, jedoch nach dem Schritt 510, wenn der 

25 Konsistenzpunkt gestartet ist. Nach AbschluB des Konsistenzpunkts wer- 
den die Inoden in der CP_W AIT- Warteschlange neu eingeordnet, entspre- 
chend der regularen Liste von Dioden mit unsauberen Puffem und der Li- 
ste von unsauberen Inoden ohne unsaubere Puffer. 

30 Einzelordnungsbeschrankung des Konsistenzpunkts 

Wie in den Figuren 20A-20C dargestellt ist, besitzt die vorliegende Erfin- 
dimg eine Einzelordnungsbeschrankung. Die Einzelordnungsbeschrankung 
besagt, daB der Fsinfo-Block 1810 nur auf Platte geschrieben wird, nach- 
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dem samtliche ubrigen Blocke auf die Platte geschrieben sind. Das Schrei- 
ben des Fsinfo-B locks 1810 ist elementar, weil ansonsten das gesamte Da- 
teisystem 1830 verloren gehen konnte. Damit erfordert das WAFL- 
Dateisystem, daB der Fsinfo-Block 1810 auf einmal geschrieben wird und 
sich nicht in einem inkonsistenten Zustand befindet. Wie in Figur 15 ge- 
zeigt ist, enthalt jeder der Fsinfo-Blocke 1810 (1510) eine Priifsumine 
15 IOC und eine Generationenzahlung 1510D. 

Figur 20A veranschaulicht das Aktualisieren der Generationenzahlung 
1810D und 1870D der Fsinfo-Blocke 1810 und 1870. Jedesmal, wenn ein 
Konsistenzpunkt (oder SchnappschuB) ausgefuhrt wird, wird auch die Ge- 
nerationenzahlung des Fsinfo-B locks aktualisiert. Figur 20 A zeigt zwei 
Fsinfo-Blocke 1810 und 1870 mit Generationenzahlungen 1810D und 
1870D, die den gleichen Wert N aufweisen, was einen Konsistenzpunkt fur 
das Dateisystem angibt. Beide Fsinfo-B Idcke referenzieren den vorausge- 
henden Konsistenzpunkt (das alte Dateisystem auf der Platte) 1830. Eine 
neue Version des Dateisystems existiert auf der Platte und wird als neuer 
Konsistenzpunkt 1831 referenziert. Die Generationenzahlung wird bei je- 
dem Konsistenzpunkt erhoht. 

In Figur 20B wird die Generationenzahlung 1810D des ersten Fsinfo- 
Blocks 1810 aktualisiert und erhalt einen Wert N+1. Dann wird sie auf die 
Platte geschrieben, Figur 20B veranschaulicht einen Wert N+1 fur die Ge- 
nerationenzahlung 1810D des Fsinfo-Blocks 1810, wohingegen die Gene- 
rationenzahlung 1870D des zweiten Fsinfo-Blocks 1870 einen Wert von N 
hat. Der Fsinfo-Block 1810 referenziert den neuen Konsistenzpunkt 1831, 
wohingegen der Fsinfo-BIock 1870 den alten Konsistenzpunkt 1830 refe- 
renziert. Als nachstes wird die Generationenzahlung 1870D des Fsinfo- 
Blocks 1870 aktualisiert und auf Platte geschrieben, wie dies in Figur 20C 
dargestellt ist. In Figur 20C besitzt die Generationenzahlung 1870D des 
Fsinfo-Blocks 1870 einen Wert N+1. Deshalb besitzen beide Fsinfo- 
Blocke 1810 und 1870 den gleichen Generationen-Zahlerstand N+l. 
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Kommt es zu einem Systemzusammenbruch zwischen zwei Fsinfo-Block- 
Aktualisieningen, besitzt jede Kopie des Fsinfo-Blocks 1810 und 1870 
eine (in dem Diagramm nicht gezeigte) selbstkonsistente Prufsumme, je- 
doch weist eine der Generationenzahlen 1810D oder 1870D einen hoheren 
5 Wert auf. Ein Systemzusammenbruch geschieht, wenn das Dateisystem 
sich in dem in Figur 20B gezeigten Zustand befindet. In der bevorzugten 
Ausfohrungsform der vorliegenden Erfindung gemaB Figur 20B wird die 
Generationenzahlung 1810D des Fsinfo-Blocks 1810 vor dem zweiten 
Fsinfo-Block 1870D aktualisiert. Daher ist die Generationenzahlung 

10 1810D (mit dem Wert Eins) groBer als die Generationenzahlung 1870D 
des Fsinfo-Blocks 1870. Da die Generationenzahlimg des ersten Fsinfo- 
Blocks 1810 groBer ist, wird sie zur Wiederherstellung des Dateisystems 
nach einem Systemzusammenbruch ausgewahlt. Dies geschieht deshalb, 
weil der erste Fsinfo-Block 1810 mehr laufende Daten enthalt, was durch 

15 seine Generationenzahlung 1810D angegeben wird. Falls der erste Fsinfo- 
Block verfalscht wird, da bei seiner AktuaUsierung das System zusam- 
menbricht, so wird die andere Kopie 1870 des Fsinfo-Blocks zur Wieder- 
herstellung des Dateisystems 1830 in konsistentem Zustand verwendet. 

20 ErfindungsgemaB ist es nicht moglich, beide Fsinfo-Blocke 1810 und 1870 
gleichzeitig zu aktualisieren. Deshalb existiert in dem Dateisystem minde- 
stens eine gute Kopie des Fsinfo-Blocks 1810 und 1870. Dies macht es 
moglich, das Dateisystem stets in einem konsistenten Zustand wiederher- 
zustellen. 

25 

WAFL macht keine speziellen Wiederherstellxmgsprozeduren erforderlich. 
Dies unterscheidet es von bekannten Systemen, die von ProtokoUierung, 
geordneten Schreibvorgangen und streng geordneten Schreibvorgangen bei 
der Wiederherstellung Gebrauch machen. Dies deshalb, weil nur Datenver- 
30 falschung, gegen die RAID Schutz bietet, oder Software ein WAFL- 
Dateisystem verfalschen kann. Um Datenverlust bei einem Systemausfall 
zu vermeiden, kann WAFL ein nicht-fliichtiges Transaktions-Protokoll fur 
samtliche Operationen ftihren, die nach dem jiingsten Konsistenzpunkt 
erfolgt sind. Dieses Protokoll ist vollig unabhangig vom WAFL- 
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Plattenformat und ist nur erforderlich, urn zu verhindem, daB bei einem 
Systemzusammenbruch Operationen verlorengehen. Allerdings ist es nicht 
erforderlich, die Konsistenz des Dateisystems beizubehalten. 

Erzeugen eines Konsistenzpunkts 

Wie oben beschrieben, werden Anderungen des WAFL-Dateisystems 
streng gesteuert, um das Dateisystem in einem konsistenten Zustand zu 
halten. Figuren 17A-17H veranschaulichen die Erzeugung eines Konsi- 
stenzpunkts fur ein WAFL-Dateisystem. Die Erzeugung eines Konsistenz- 
punkts wird anhand der Figuren 5 und 6 erlautert. 

In den Figuren 17A-17L sind Puffer, die nicht modifiziert wiirden, ohne 
Stemchen neben sich. Deshalb enthalten Puffer die gleichen Daten wie 
entsprechende platteninteme Blocke. Damit laBt sich ein Block in den 
Speicher laden, er ist gegenuber seiner plattenintemen Version jedoch un- 
verandert. Ein Puffer mit einem einzeinen Stemchen (*) daneben bedeutet 
einen unsauberen Puffer in dem Speicher (seine Daten sind modifiziert). 
Ein Puffer mit einem doppelten Stemchen (**) neben sich bedeutet einen 
unsauberen Puffer, dem Plattenspeicherplatz zugewiesen ist. Schliefilich ist 
ein Puffer mit einem Dreifachstemchen (***) ein imsauberer Puffer, der in 
einen neuen Block auf der Platte eingeschrieben ist. Die Konvention zum 
Bezeichnen des Zustands von Puffem wird auch bei den Figuren 21A-21E 
benutzt, 

Figur 17A zeigt eine Liste 2390 von Inoden mit unsauberen Puffem, um- 
fassend Inoden 2306A und 2306B. Die Inoden 2306A imd 2306B referen- 
zieren Baume von Puffem, in denen mindestens ein Puffer jedes Baums 
modifiziert wurde. Zu Beginn werden Konsistenzpunkt-Flags 2391 und 
2392 der Inoden 2306A und 2306B geloscht (0). Wahrend fur das vorlie- 
gende System eine Liste 2390 von Inoden mit unsauberen Puffem darge- 
stellt ist, sollte dem Fachmann ersichtlich sein, daB andere Listen von Ino- 
den ebenfalls im Speicher existieren konnen. Beispielsweise wird in dem 
Speicher eine Liste von Dioden gefuhrt, die unsauber sind, allerdings keine 
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unsauberen Puffer haben. Diese Inoden mussen als in dem Konsistenz- 
punkt befindlich markiert werden. Sie mussen auf die Platte geraumt wer- 
den, damit auch der unsaubere Inhalt der Inoden-Datei auf die Platte ge- 
schrieben wird, selbst wenn unsaubere Inoden nicht unsaubere Blocke re- 
5 ferenzieren. Dies geschieht im Schritt 520 in Figur 5. 

Figur 17B ist ein Diagramm, welches ein WAFL-Dateisystem eines vor- 
hergehenden Konsistenzpunkts mit dem Fsinfo-Block 2302, der Inoden- 
Datei 2346, der blkmap-Datei 2344 sowie Dateien 2340 und 2342 lunfaBt. 

10 Die Datei 2340 enthalt B15cke 2310-2314, die Daten ,3" bzw. „C" 
enthalten. Die Datei 2342 enthalt Datenblocke 2316-2320 mit Daten ,JD", 
,JE" bzw. ,JF". Die blkmap-Datei 2344 enthalt den Block 2324, Die Inoden- 
Datei 2346 enthalt zwei 4 KB-B16cke 2304 und 2306. Der zweite Block 
2306 enthalt Inoden 2306A-2306C, die die Datei 2340, die Datei 2342 

15 bzw. die blkmap-Datei 2344 referenzieren. Dies ist im Block 2306 durch 
Auflistung der Dateinummer in der Diode angezeigt. Fsinfo-Block 2302 
enthalt die Wurzelinode. Die Wurzelinode referenziert die Blocke 2304 
imd 2306 der Inoden-Datei 2346. Figur 17B veranschaulicht einen Baum 
von Puffem in einem Dateisystem mit Wuizelbildung durch den Fsinfo- 

20 Block 2302, welcher die Wurzelinode beinhaltet. 

Figur 17C ist ein Diagramm welches zwei modifizierte Puffer fur die 
Blocke 2314 und 2322 im Speicher veranschaulicht. Das aktive Dateisy- 
stem wird so modifiziert, daB der die Daten „C" enthaltende Block 2314 

25 aus der Datei 2340 geloscht wird. AuBerdem werden die im Block 2320 
gespeicherten Daten , J" zu , J^-Prime" modifiziert und in einem Puffer fur 
den Plattenblock 2322 gespeichert. Es soUte gesehen werden, daB die in 
Puffem fur Plattenblocke 2314 und 2322 enthaltene modifizierte Daten zu 
dieser Zeit nur im Speicher existieren. Samtliche ubrigen Bl5cke in dem 

30 aktiven Dateisystem der Figur 17C sind nicht modifiziert und deshalb nicht 
mit einem Stemchen neben ihnen markiert. Allerdings konnen einige oder 
samtliche dieser Blocke in dem Speicher zugehorige saubere Puffer auf- 
weisen. 
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Figur 17D ist ein Diagramm, welches die Eintrage 2324A-2324M der 
blkmap-Datei 2344 im Speicher veranschaulicht. Eintrage 2324A-2324M 
sind in einem Puffer fur den 4-KB-Block 2324 der blkmap-Datei 2344 
enthalten. Wie zuvor beschrieben, sind das BITO und BIT3 1 das FS-BIT 
bzw. das CP-BIT. Das Konsistenzpiinkt-Bit (CP-BIT) wird wahrend eines 
Konsistenzpunkts gesetzt, um zu garantieren, daB der entsprechende Block 
nach Beginn, jedoch noch nicht erfolgtem AbschluB eines Konsistenz- 
punkts modifiziert wird. BITl ist das erste SchnappschuB-Bit (wird unten 
beschrieben). Blkmap-Eintrage 2324A und 2324B veranschaulichen, daB 
gemaB Figux 17B die 4-KB-Bl6cke 2304 und 2306 der Inoden-Datei 2346 
in dem aktiven Dateisystem (FS-BIT gleicht 1) und in dem Konsistenz- 
punkt (CP-BIT gleicht 1) sind. In ahnlicher Weise sind die iibrigen Blocke 
2310-2312 und 2316-2320 sowie 2324 in dem aktiven Dateisystem und in 
dem Konsistenzpunkt. AUerdings sind die Blocke 2308 imd 2322 sowie 
2326-2328 weder in dem aktiven Dateisystem noch in dem Konsistenz- 
punkt (was durch BITO bzw. BIT31 angegeben wird). Der Eintrag fur den 
geloschten Block 2314 hat einen Wert 0 im FS-BIT, was anzeigt, daB er 
aus dem aktiven Dateisystem entfemt wurde. 

Im Schritt 510 der Figur 5 werden samtliche „imsauberen" Inoden in dem 
System als im Konsistenzpimkt befindlich markiert. Unsaubere Inoden 
enthalten sowohl Inoden, die unsauber sind, als auch Inoden, welche im- 
saubere Puffer referenzieren. Figur 171 veranschaulicht eine Liste von Ino- 
den mit unsauberen Puffem, wo die Konsistenzpimkt-Flags 2391 und 2392 
von Inoden 2306A und 2306B gesetzt (1) sind. Die Inode 2306A referen- 
ziert den Block 2314, der Daten „C" der Datei 2340 enthalt, die aus dem 
aktiven Dateisystem zu loschen ist Die Inode 2306B des Blocks 2306 der 
Inoden-Datei 2346 referenziert die Datei 2342, Der Block 2320, der die 
Daten „F" enthalt, wurde modifiziert, und es muB ein neuer Block zuge- 
wiesen werden, der die Daten ,JF" enthalt. Im Schritt 510 werden die un- 
sauberen Inoden 2306A und 2306B in den Puffer fur den Block 2308 ein- 
kopiert. Der Puffer fur den Block 2306 wird anschlieBend (im Schritt 530) 
auf Platte geschrieben. Dies ist in Figur 17E dargestellt. Die modifizierten 
Daten existieren nur in dem Speicher, und der Puffer 2308 ist als unsauber 
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markiert. Die Inkonsistenzpunkt-FIags 2391 und 2392 der Inoden 2306A 
und 2306B werden anschlieBend geloscht (0), wie in Figur 17A dargestellt. 
Dies gibt die Inoden fiir die Benutzxing durch andere Prozesse frei. 

5 Im Schritt 520 werden regulare Dateien auf Platte geraumt. Damit wird 
dem Block 2322 Plattenspeicherplatz zugewiesen. Der Block 2314 der 
Datei 2340 ist zu loschen, so daB mit diesem Block nichts geschieht, bis 
spater dann der Konsistenzpunkt abgeschlossen ist. Der Block 2322 wird 
im Schritt 520 auf Platte geschrieben. Dies ist in Figur 17F dargestellt, wo 

10 Puffer fur die Blocke 2322 und 2314 auf Platte geschrieben wurden (mar- 
kiert durch ***). Die Zwischen-Zuordnung von Plattenspeicherraum (**) 
ist nicht dargestellt Die Inoden 2308A und 2308B des Blocks 2308 der 
Inoden-Datei 2346 werden anschlieBend in die Inoden-Datei geraumt. Die 
Inode 2308A des Blocks 2308 referenziert Blocke 2310 imd 2312 der Da- 

15 tei 2346. Die Inode 2308B referenziert Blocke 2316, 2318, 2322 fur die 
Datei 2342. Wie in Figur 17F gezeigt ist, wird Plattenspeicherplatz fur den 
Block 2308 der Inode 2346 und fur den direkten Block 2322 der Datei 
2342 zugewiesen. Allerdings ist das Dateisystem selbst noch nicht aktuali- 
siert worden. Damit bleibt das Dateisystem in einem konsistenten Zustand. 

20 

Im Schritt 530 wird die blkmap-Datei 2344 auf Platte geraumt. Dies ist in 
Figur 17G dargestellt, wo die blkmap-Datei 2344 durch ein Stemchen als 
unsauber gekennzeichnet ist. 

25 Im Schritt 610 der Figur 6 wird die Inode fur die blkmap-Datei vorab in 
die Inoden-Datei geraumt, wie in Figur 17H gezeigt. Die Inode 2308C 
wurde in den Block 230B der Inoden-Datei 2346 geraimit. Allerdings refe- 
renziert die Inode 2308C inrnier noch den Block 2324. Im Schritt 620 wird 
Plattenspeicherraum fur die blkmap-Datei 2344 imd die Inoden-Datei 2346 

30 zugewiesen. Der Block 2308 wird fur die Inoden-Datei 2346 zugewiesen, 
und Block 2326 wird fur die blkmap-Datei 2344 zugewiesen. Wie oben 
beschrieben, enthalt der Block 2308 der. Inoden-Datei 2346 eine vorab- 
geraumte Inode 2308C fur die blkmap-Datei 2344. Im Schritt 630 wird die 
Inode fiir die blkmap-Datei 2344 in den vorgeraumten Block 2308C in der 
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Inode 2346 geschrieben. Damit wird im Schritt 620 die interne Inode 
2308C zum Referenzieren des Blocks 2324 aktualisiert und wird in den 
Puffer des Speichers kopiert, der den in den Block 2308 zu schreibenden 
Block 2306 enthalt. Dies ist in Figur 17H dargestellt, wo die Inode 2308C 
den Block 2326 referenziert. 

Im Schritt 640 werden die Eintrage 2326A-2326L fiir jeden Block 2304- 
2326 in der blkmap-Datei 2344 in Figur 17J aktualisiert. Blocke, die sich 
nach dem Beginn des Konsistenzpunkts in Figur 17B nicht geandert haben, 
besitzen in ihren Eintragen dieselben Werte. Die Eintrage werden dadurch 
aktualisiert, daB BITO (das FS-Bit) in das Konsistenzpunkt-Bit (BIT31) 
kopiert wird. Der Block 2306 ist nicht Teil des aktiven Dateisystems, und 
deshalb ist BITO gleich Null (BITO wurde im Schritt 620 ausgeschaltet, als 
der Block 2308 zugewiesen wurde, um neue Daten fiir diesen Teil der Ino- 
den-Datei aufzunehmen). Dies ist in Figur 17J fur den Eintrag 2326B dar- 
gestellt. In ahnlicher Weise ist im Eintrag 2326F fur den Block 2314 der 
Datei 2340 das BITO und das BIT31 gleich Null. Block 2320 der Datei 
2342 und Block 2324 der blkmap-Datei 2344 werden in ahnlicher Weise 
gehandhabt, wie dies fur die Eintrage 2361 bzw. 2326K gezeigt ist. Im 
Schritt 650 werden der unsaubere Block 2308 der Inoden-Datei 2346 und 
der unsaubere Block 2326 der blkmap-Datei 2344 auf Platte geschrieben. 
Dies ist in Figur 17K diu-ch ein dreifaches Stemchen (***) neben den 
Blocken 2308 und 2326 angegeben. 

Bezugnehmend auf Figur 5 wird im Schritt 540 der Dateisysteminfomiati- 
onsblock 2302 auf Platte geraumt, und dies geschieht zweimaL Damit ist 
der Fsinfo-Block 2302 unsauber geworden und wird anschlieBend auf Plat- 
te geschrieben (in Figur 17L durch ein Dreifachsterachen angedeutet). In 
Figur 17L ist ein einzelner Fsinfo-Block 2302 dargestellt. Wie aus dem 
Diagramm ersichtlich ist, referenziert der Fsinfo-Block 2302 jetzt den 
Block 2304 und den Block 2308 der Inoden-Datei 2346, In Figur 17L ist 
der Block 2306 nicht mehr Bestandteil der Inoden-Datei 2346 des aktiven 
Dateisystems. In ahnlicher Weise enthalt die durch die Inode 2308A der 
Inoden-Datei 2346 referenzierte Datei 2340 Blocke 2310 und 2312. Der 



37 



Block 2314 ist nicht mehr Bestandteil der Datei 2340 innerhalb dieses 
Konsistenzpunkts. Die Datei 2342 enthalt Blocke 2316, 2318 und 2322 in 
dem neuen Konsistenzpunkt, wahrend Block 2320 nicht Bestandteil der 
Datei 2342 ist. Weiterhin referenziert der Block 2308 der Inoden-Datei 
5 2346 eine neue blkmap-Datei 2344 mit dem Block 2326. 

Wie in Figur 17L gezeigt ist, wird in einem Konsistenzpunkt das aktive 
Dateisystem dadurch aktualisiert, daB die Inode der Inoden-Datei 2346 in 
den Fsinfo-Block 2302 einkopiert wird. AUerdings verbleiben die Blocke 
10 2314, 2320, 2324 und 2306 des vorhergehenden Konsistenzpunkts auf der 
Platte. Diese Blocke werden beim Aktualisieren des Dateisystems niemals 
uberschrieben, um zu garantieren, daB sowohl der alte Konsistenzpunkt 
1830 als auch der neue Konsistenzpunkt 1831 auf der Platte vorhanden 
sind, siehe Figur 20 und Schritt 540. 

15 

Scbnappschusse 

Das WAFL-System arbeitet mit Schnappschussen. Ein SchnappschuB oder 
eine Momentaufiiahme ist eine nur lesbare Kopie eines gesamten Dateisy- 

20 stems zu einem gegebenen Augenblick, zu welchem der SchnappschuB 
erzeugt wird. Ein neu erzeugter SchnappschuB bezieht sich auf exakt die- 
selben Plattenblocke, wie dies das aktive Dateisystem tut. Deshalb wird er 
innerhalb einer kurzen Zeitspanne erzeugt und verbraucht keinen zusatzli- 
chen Plattenspeicherplatz. Nur wenn Datenblocke innerhalb des aktiven 

25 Dateisystems modifiziert imd in neue Stellen auf der Platte geschrieben 
werden, beginnt der SchnappschuB, besonderen Platz zu beanspruchen. 

WAFL halt bis zu 20 unterschiedliche Scbnappschusse, die von 1 bis 20 
numeriert sind. Damit ermoglicht WAFL die Erzeugung mehrfacher „Klo- 
30 ne" desselben Dateisystems. Jeder SchnappschuB wird durch eine 
SchnappschuB-Inode reprasentiert, die ahnlich der Darstellung des aktiven 
Dateisystems durch eine Wurzelinode ist. Scbnappschusse werden erzeugt 
durch Duplizieren der Wurzeldatenstruktur des Dateisystems. In der be- 
vorzugten Ausfuhrungsform ist die Wurzeldatenstruktur die Wurzelinode. 
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AUerdings konnte auch jede andere Datenstniktur verwendet werden, die 
reprasentativ fur ein gesamtes Dateisystem ist. Die SchnappschuB-Inoden 
befinden sich an einer festen Stelle innerhalb der Inoden-Datei. Die Be- 
grenzung auf 20 Schnappschusse wird dxirch die GroBe der Blockabbild- 
Eintrage bestimmt. WAPL erfordert zwei Schritte zum Erzeugen eines 
neuen Schnappschxisses N: Kopieren der Wurzelanode in die Anode fur 
den SchnappschuB N und Kopieren des Bits 0 in das Bit N jedes Blockab- 
bild-Eintrags innerhalb der blkmap-Datei. BitO gibt die Blocke an, die von 
dem Baum unterhalb der Wiirzelinode referenziert werden. 

Das Ergebnis ist ein neuer Dateisystembaum, dessen Wurzel gebildet wird 
durch die SchnappschxiB-Inode N, die exakt dieselben Plattenblocke refe- 
renziert wie die Wurzelinode. Durch Einstellen eines entsprechenden Bits 
in der Blockabbildung fur jeden Block in dem SchnappschuB wird verhin- 
dert, daB SchnappschuB-Blocke freigesetzt werden, selbst wenn die aktive 
Datei die SchnappschuB-Blocke nicht mehr verwendet. Da WAFL stets 
neue Daten auf unbenutzte Speicherplatze schreibt, andert sich der 
SchnappschuB-Baum selbst dann nicht, wenn das aktive Dateisystem sich 
andert. Da ein neu erzeugter SchnappschuB-Baiun exakt die gleichen 
Blocke wie die Wxirzelinode referenziert, verbraucht er keinen zusatzli- 
chen Plattenspeicherplatz. Im Lauf der Zeit referenziert der SchnappschuB 
Plattenblocke, die ansonsten freigesetzt wurden. Damit benutzen im Ver- 
lauf der Zeit der SchnappschuB und das aktive Dateisystem immer weniger 
Blocke, so daB der von dem SchnappschuB beanspruchte Raum zunimmt. 
Schnappschusse konnen geloscht werden, wenn sie eine nicht mehr akzep- 
tierbare Anzahl von Plattenblocken belegen. 

Die Liste aktiver Schnappschusse wird zusammen mit den Namen der 
Schnappschusse in einer SchnappschuB- Verzeichnis genannten Metadaten- 
Datei abgespeichert. Der Plattenzustand wird in der oben beschriebenen 
Weise aktualisiert Wie bei samtlichen anderen Andenmgen erfolgt die 
Aktualisierung durch automatisches Weiterschreiten von einem Konsi- 
stenzpunkt ziun anderen. Modifizierte Blocke werden in unbenutzte Platze 
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auf der Platte geschrieben, woraufhin eine neue Wurzelinode, welche das 
aktualisierte Dateisystem beschreibt, geschrieben wird. 

Uberblick uber Schnappschusse 

5 

Figur 18A ist ein Diagramm des Dateisystems 1830, bevor ein Schnapp- 
schuB aufgenonunen wird, wobei Umwege-Ebenen entfemt wurden, um 
einen einfacheren Uberblick uber das WAFL-Dateisystem zu ermoglichen. 
Das Dateisystem 1830 reprasentiert das in Figur 16 gezeigte Dateisystem 

10 1690, Das Dateisystem 1830 besteht aus BlQcken 1812 bis 1820. Die Inode 
der Inoden-Datei ist in dem Fsinfo-Block 1810 enthalten. Wahrend eine 
einzelne Kopie des Fsinfo-B locks 1810 in Figur 18A dargestellt ist, ver- 
steht sich naturlich, daB auf der Platte eine zweite Kopie des Fsinfo-Blocks 
vorhanden ist. Die in dem Fsinfo-Block 1810 enthaltene Inode 1810A ent- 

15 halt 16 Zeiger, die auf 16 Blocke mit gleicher Umwegeebene zeigen. Die 
Blocke 1810-1820 in Figur 18A reprasentieren samtliche Blocke innerhalb 
des Dateisystems 1 830 einschlieBlich direkte Blocke, indirekte Blocke, etc. 
Obschon lediglich fiinf Blocke 1812-1820 dargestellt sind, kaim jeder 
Block auf weitere Blocke verweisen. 

20 

Figur 18B ist ein Diagramm, das die Erzeugimg eines Schnappschusses 
zeigen. Der SchnappschuB wird fur das gesamte Dateisystem 1830 dadurch 
erstellt, daB einfach die Inode 1810A der Inoden-Datei kopiert wird, die in 
dem Fsinfo-Block 1810 gespeichert ist, wobei die Inode in die Schnapp- 

25 schuB-Inode 1822 einkopiert wird. Durch Einkopieren der Inode 1810A 
der Inoden-Datei wird eine neue Datei von Dioden erzeugt, die das gleiche 
Dateisystem wie das aktive Dateisystem reprasentiert, weil die Inode 
1810A der Inoden-Datei selbst kopiert wird. Es brauchen keine weiteren 
Blocke 1812-1820 dupliziert zu werden. Die kopierte Inode oder Schnapp- 

30 schuB-Inode 1822 wird dann in die Inoden-Datei einkopiert, was einen 
Block innerhalb der Inoden-Datei unsauber macht. Fur eine Inoden-Datei 
aus einer oder mehreren Umwegeebenen wird jeder indirekte Block wie- 
derum imsauber gemacht. Dieser Vorgang des Verunreinigens von Blok- 
ken schreitet durch samtliche Umwegeebenen. Jeder 4-KB-Block inner- 
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halb der Inoden-Datei auf der Platte enthalt 32 Inoden, wo jede Inode 128 
Bytes Lange aufweist. 

Die neue SchnappschuB-Inode 1822 nach Figur 18B verweist zuruck auf 
die Blocke 1812-1820 hochster Umwegeebene, referenziert durch die Ino- 
de 1810A der Inoden-Datei, wenn der SchnappschiiB 1822 aufgenommen 
wird. Die Inoden-Datei selbst ist eine rekursive Struktur, weil sie Schnapp- 
schusse des Dateisystems 1830 beinhaltet. Jeder SchnappschuB 1822 ist 
eine Kopie der Inode 1810A der Inoden-Datei, welche in die Inoden-Datei 
einkopiert wird. 

Figur 18C ist ein Diagramm, das das aktive Dateisystem 1830 imd den 
SchnappschuB 1822 fiir den Zeitpunkt veranschauHcht, zu dem eine Ande- 
rung des aktiven Dateisystems 1830 nach Aufhahme des Schnappschusses 
1822 stattfindet. Wie in dem Diagramm gezeigt, wird der Block 1818 mit 
den Daten ,JD" nach Aufhahme des Schnappschusses (Figur 18B) modifi- 
ziert, xmd deshalb wird ein neuer Block 1824 mit Daten ,X>pnme' das 
aktive Dateisystem 1830 zugeordnet. Damit enthalt das aktive Dateisystem 
1830 Blocke 1812-1816 und 1820-1824, es enthalt aber nicht den Block 
1818 mit den Daten ,JD". Allerdings wird der die Daten ,JD" enthaltende 
Block 1818 deshalb nicht uberschrieben, weil das WAFL-System keine 
Blocke auf der Platte iiberschreibt. Der Block 1818 wird gegen ein Uber- 
schreiben von einem SchnappschuB-Bit geschutzt, welches in dem Block- 
abbild-Eintrag fur den Block 1818 gesetzt wird. Deshalb zeigt der 
SchnappschuB 1822 immer noch auf den immodifizierten Block 1818 
ebenso wie auf die Blocke 1812-1816 und 1820, Die vorliegende Erfin- 
dung unterscheidet sich gemaB den Figuren 18A-18C von bekannten Sy- 
stemen, die ,4Clone'* eines Dateisystems erzeugen, wobei ein Klon eine 
Kopie samtlicher Blocke einer Diodendatei auf einer Platte ist. Damit 
werden die gesamten Inhalte der herkommlichen Inoden-Dateien dupli- 
ziert, was groBe Mengen (MB) an Plattenspeicherplatz ebenso erfordert 
wie betrachtliche Zeit fur Platten-E/A-Operationen. 
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Wenn das aktive Dateisystem 1830 in Figur 18C modifiziert wird, benotigt 
es deshalb mehr Plattenspeicherraum, weil das Dateisystem mit den Blok- 
ken 1812-1820 nicht uberschrieben wird. In Figur 18C ist der Block 1818 
als ein direkter Block dargestellt. Bei einem wirklichen Dateisystem aller- 
5 dings kann der Block 1818 auch durch einen indirekten Block mittels Zei- 
ger angesprochen werden. Wenn also der Block 1818 modifiziert und an 
einen neuer Stelle der Platte als Block 124 abgespeichert wird, werden 
auch die entsprechenden direkten und indirekten Blocke kopiert und dem 
aktiven Dateisystem 1830 zugeordnet. 

10 

Figur 19 ist ein Diagramm, welches die Andenmgen veranschaulicht, die 
im Block 1824 gemaB Figur 18C auftreten, Der Block 1824 nach Figur 
18C ist in der gestrichelten Linie 1824 in Figur 19 dargestellt. Figur 19 
veranschaulicht verschiedene Umwegeebenen fur den Block 1824 nach 

15 Figur 18C. Der neue Block 1910, welcher gemaB Figur 18C auf die Platte 
geschrieben wird, ist in Figur 19 mit 1910 bezeichnet. Weil der Block 
1824 einen Datenblock 1910 enthalt, welcher modifizierte Daten beinhal- 
tet, die durch einen doppelten Umweg oder doppelten Verweis referenziert 
werden, werden auch zwei weitere Blocke 1918 und 1926 modifiziert. Der 

20 Zeiger 1924 eines einfach-indirekten Blocks 1918 referenziert einen neuen 
Block 1910, imd deshalb muB der Block 1918 an eine neue Stelle der Plat- 
te geschrieben werden. In ahnlicher Weise wird der Zeiger 1928 des indi- 
rekten Blocks 1926 modifiziert, da er auf den Block 1918 zeigt. Deshalb 
kann gemaB Figur 19 das Modifizieren eines Datenblocks 1910 zur Folge 

25 haben, daB mehrere indirekte Blocke 1918 und 1926 ebenfalls modifiziert 
werden. Dies macht es erforderlich, auch die Blocke 1918 imd 1926 auf 
eine neue Stelle der Platte zu schreiben. 

Da die direkten und indirekten Blocke 1910, 1918 und 1926 des Daten- 
30 blocks 1824 in Figur 18C geandert und an eine neue Stelle geschrieben 
wurden, wird die Inode in der Inoden-Datei in einen neuen Block ge- 
schrieben. Der modifizierte Block der Inoden-Datei erhalt einen neuen 
Block auf der Platte, da Daten nicht uberschrieben werden konnen. 
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Wie in Figur 19 gezeigt ist, wird auf den Block 1910 durch indirekte Blok- 
ke 1926 bzw. 1918 gezeigt. Wenn also der Block 1910 modifiziert und an 
einer neuen Stelle der Platte gespeichert wird, werden auch die entspre- 
chenden direkten und indirekten Blocke kopiert und dem aktiven Dateisy- 
5 stem zugeordnet. Damit muB eine Reihe von Datenstrukturen aktualisiert 
werden. Das Andem des direkten Blocks 1910 und der indirekten Blocke 
1918 und 1926 veranlaBt, daB die blkmap-Datei modifiziert werden muC. 

Die Schliisseldatenstrukturen ftir Schnappschusse sind die Blockabbild- 
10 Eintrage, wo jeder Eintrag mehrere Bits fiir einen SchnappschuB aufweist. 
Dies ermSglicht es, daB mehrere Schnappschusse erzeugt werden. Ein 
SchnappschuB ist ein Bild eines Baums von Blocken, die das Dateisystem 
(1830 in Figur 18) bilden. Solange keine neuen Daten auf Blocke des 
Schnappschusses geschrieben werden, wird das durch den SchnappschuB 
15 reprasentierte Dateisystem nicht geandert. Ein SchnappschuB ist einem 
Konsistenzpunkt ahnlich. 

Das erfindungsgemaBe Dateisystem ist vollstandig konsistent nach dem 
letzten Mai des Schreibens der Fsinfo-Blocke 1810 und 1870. Weim daher 
20 das System einen Netzausfall erleidet, entsteht beim Neustart das Dateisy- 
stem 1830 in konsistentem Zustand. Da 8-32 MB Plattenspeicherraimi bei 
einem typischen bekannten ,JKlon" eines 1-GB-Dateisystems verwendet 
werden, fuhren Klone nicht 2M Konsistenzpimkten oder Schnappschussen 
wie die vorliegende Erfindung. 

25 

Bezugnehmend auf Figur 22 existieren zwei fruhere Schnappschusse 
2110A und 2110B auf der Platte. Zu dem Zeitpunkt, zu dem ein dritter 
SchnappschuB entsteht, wird die auf das aktive Dateisystem zeigende 
Wurzelinode in den Inodeneintrag 21 IOC fur den dritten SchnappschuB in 
30 der Inoden-Datei 2110 kopiert. Gleichzeitig zeigt in dem durchgehenden 
Konsistenzpunkt ein Flag an, daB der SchnappschuB 3 erzeugt wird. Das 
gesamte Dateisystem wird verarbeitet, indem gepruft wird, ob BITO filr 
jeden Eintrag innerhalb der blkmap-Datei gesetzt (1) oder geloscht (0) ist. 
Samtliche BITO-Werte fiir jeden Blockabbild-Eintrag werden in die Ebene 
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fur den SchnappschuB 3 kopiert. Nach Beendigung ist jeder aktive Block 
2110-2116 und 1207 in dem Dateisystem zu diesem Zeitpxinkt in dem 
SchnappschuB aufgenommen. 

5 Blocke, die durchgangig fur eine gegebene Zeitspanne auf der Platte exi- 
stiert haben, befinden sich ebenfalls in den entsprechenden Schnappschus- 
sen 2110A-2110B, die dem dritten SchnappschuB 21 IOC vorausgehen. 
Wenn ein Block in dem Dateisystem fur eine ausreichend lange Zeitspanne 
verblieben ist, ist er in samtlichen Schnappschussen enthalten. Der Block 

10 1207 ist ein derartiger Block. Wie in Figur 22 gezeigt ist, wird der Block 
1207 durch die Inode 2210G der aktiven Inoden-Datei referenziert, auBer- 
dem indirekt durch die Schnappschusse 1, 2 imd 3. 

Die sequentielle Reihenfolge von Schnappschussen reprasentiert nicht im- 
15 bedingt eine chronologische Reihenfolge von Dateisystem-Kopien. Jeder 
einzelne SchnappschuB in einem Dateisystem kann zu jeder gegebenen 
Zeit geloscht werden, um dadxu-ch einen Eintrag fiir nachfolgenden Ge- 
brauch verfugbar zu machen. Wenn BITO eines blkmap-Eintrags, der das 
aktive Dateisystem referenziert, geloscht wird (was bedeutet, daB der 
20 Block aus dem aktiven Dateisystem geloscht wurde), so kann der Block 
nicht noch einmal benutzt werden, wenn irgendeines der SchnappschiiB- 
Referenzbits gesetzt wird. Dies deshalb, weil der Block Teil eines 
Schnappschusses ist, der noch in Gebrauch ist. Ein Block kann nur neu 
verwendet werden, wenn samtliche Bits in dem blkmap-Eintrag auf Null 
25 gesetzt sind. 

Algorithmus zum Erzeugen eines Schnappschusses 

Das Erzeugen eines Schnappschusses entspricht etwa exakt der Erzeugung 
30 eines regularen Konsistenzpunkts gemaB Figur 5. Im Schritt 510 werden 
samtliche xmsauberen Inoden als in dem Konsistenzpunkt befindlich mar- 
kiert. Im Schritt 520 werden regulare Dateien auf die Platte geraumt. Im 
Schritt 520 werden Spezialdateien (das heiBt die Inoden-Datei und die 
blkmap-Datei) auf Platte geraumt. Im Schritt 540 werden Fsinfo-Blocke 
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auf Platte geraumt. Im Schritt 550 werden samtliche Inoden, die sich nicht 
im Konsistenzpunkt befanden, verarbeitet. Figur 5 wird oben im einzelnen 
beschrieben. Tatsachlich erfolgt das Erzeugen eines Schnappschusses als 
Teil der Erzeugung eines Konsistenzpunkts. Der Hauptunterschied zwi- 
schen der Erzeugung eines Schnappschusses und der eines Konsistenz- 
punkts besteht darin, daB samtliche Eintrage der blkmap-Datei das aktive 
FS-Bit in das SchnappschuB-Bit einkopiert haben. Das SchnappschuB-Bit 
reprasentiert den entsprechenden SchnappschuB, lun die Blocke in dem 
SchnappschuB gegen IJberschreiben zu schutzen. Das Erzeugen vmd das 
Loschen von Schnappschussen erfolgt im Schritt 530, da dies der einzige 
Punkt ist, an dem das Dateisystem voUstandig selbst konsistent ist und auf 
dem Wege zur Platte ist. 

Im Schritt 530 werden unterschiedliche Schritte dxu-chgefuhrt, die dann in 
Figur 6 dargestellt sind, und zwar fur einen Konsistenzpimkt, wenn ein 
neuer SchnappschuB erzeugt wird. Die Schritte sind sehr ahnlich jenen fur 
einen regularen Konsistenzpunkt, Figur 7 ist ein FluBdiagramm, welches 
die Schritte zeigt, welche der Schritt 530 zum Erzeugen eines Schnapp- 
schusses imifaBt. Wie oben beschrieben, weist der Schritt 530 Plattenspei- 
cherplatz fur die blkmap-Datei xmd die Inoden-Datei zu und kopiert das 
aktive FS-Bit in das SchnappschuB-Bit, welches den entsprechenden 
SchnappschuB reprasentiert, um die Blocke in dem SchnappschuB gegen 
Uberschreiben zu schutzen. 

Im Schritt 710 werden die Inoden der blkmap-Datei und des Schnapp- 
schusses auf Platte vorgeraiunt. Zusatzlich zu dem Raumen der Inode und 
der blkmap-Datei in einen Block der Inoden-Datei (wie im Schritt 610 der 
Figur 6 flir einen Konsistenzpunkt), wird die Inode des erzeugten Schnapp- 
schusses auch in einen Block der Inoden-Datei geraumt. Dies garantiert, 
daB der Block in der Inoden-Datei, der die Inode des Schnappschusses 
enthalt, unsauber ist. 

Im Schritt 720 wird jeder Block in der blkmap-Datei unsauber gemacht. Im 
Schritt 760 (unten beschrieben) werden samtliche Eintrage in der blkmap- 
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Datei aktualisiert, und nicht nur die Eintrage in iinsauberen Blocken. Somit 
mussen samtliche Blocke der blkmap-Datei hier als unsauber markiert 
werden, iim zu garantieren, daB der Schritt 730 fur sie Plattenspeicherplatz 
zum Schreiben zuweist. 

5 

Im Schritt 730 wird fur samtliche unsauberen Blocke in der Inode und in 
blkmap-Dateien Plattenspeicherplatz zugewiesen. Die unsauberen Blocke 
enthalten den Block in der Inoden-Datei, welche die Inode der blkmap- 
Datei, die unsauber ist, enthalt, auBerdem den Block, der die Inode fur den 
10 neuen SchnappschuB enthalt. 

Im Schritt 740 werden die Inhalte der Wurzelinode fur das Dateisystem in 
die Inode des Schnappschusses innerhalb der Inoden-Datei kopiert. Zu 
dieser Zeit wird jedem Block, der Teil des neuen Konsistenzpunkts ist imd 
15 der auf Platte geschrieben wird, Plattenspeicherplatz snigeordnet Damit 
kopiert ein Duplizieren der Wurzelinode in die SchnappschuB-Inode in 
wirksamer Weise das gesamte aktive Dateisystem, Die aktuellen Blocke, 
die in dem SchnappschuiB enthalten sind, sind die gleichen Blocke des ak- 
tiven Dateisystems. 

20 

Im Schritt 750 werden die Inoden der blkmap-Datei imd der SchnappschuB 
in die Inoden-Datei kopiert. 

Im Schritt 760 werden Eintrage in der blkmap-Datei aktualisiert. Zusatz- 
25 lich zu dem Kopieren des aktiven FS-Bits in das CP-Bit fur die Eintrage 
wird das aktive FS-Bit auch in das dem neuen SchnappschuB entsprechen- 
de SchnappschuB-Bit kopiert. 

Im Schritt 770 werden samtliche imsauberen Blocke in den blkmap- und 
30 Inoden-Dateien auf Platte geschrieben. 

SchlieBIich werden zu einer gewissen Zeit Schnappschusse selbst aus dem 
Dateisystem entfemt, Schritt 760. Ein SchnappschuB wird dadurch aus 
dem Dateisystem entfemt, daB sein SchnappschuB-Inodeneintrag innerhalb 



46 



der Inoden-Datei des aktiven Dateisystems geloscht und jedes Bit, das der 
SchnappschuCnummer in jedem Eintrag innerhalb der blkmap-Datei ent- 
spricht, geloscht wird. Es erfolgt eine Zahlung auch fur jedes Bit des 
Schnappschusses in samtlichen blkmap-Eintragen, die aus einem einge- 
5 stellten Wert geloscht werden, xim dadurch eine Zahlung der durch Lo- 
schen des Schnappschusses freigesetzten Blocke zu schaffen (entsprechend 
der freigesetzten Menge an Plattenspeicherplatz). Das System entscheidet 
anhand des altesten Schnappschusses, welcher SchnappschuB geloscht 
werden soli. Auch Benutzer konnen von Hand spezifizierte Schnappschus- 
10 se loschen. 

Die vorliegende Erfindimg begrenzt die Gesamtanzahl von Schnappschus- 
sen und fuhrt eine blkmap-Datei, die Eintrage mit Mehrfach-Bits zum Ver- 
folgen der Schnappschusse anstelle der Venvendung von Zeigem mit ei- 

15 nem COW-Bit, wie dies in Episode der Fall ist, aufweist. Bin nicht ver- 
wendeter Block enthalt fur samtliche Bits in seinem blkmap-Datei-Eintrag 
nur Nullen. Im Verlauf der Zeit wird das BITO fiir das aktive Dateisystem 
iiblicherweise zu einem gegebenen Zeitpimkt eingeschaltet Das Setzen 
des BITO identifiziert den entsprechenden Block als in dem aktiven Datei- 

20 system zugeordnet. Wie oben angegeben, werden samtliche Schnapp- 
schuC-Bits zu Beginn auf Null gesetzt. Wenn das aktive Dateibit vor Set- 
zen irgendeines SchnappschuB-Bits geloscht ist, ist der Block in keinem 
auf Platte gespeicherten SchnappschuB voAanden. Deshalb steht der 
Block sofort zur Neuzuweisung zur Verfugung imd kann spater aus einem 

25 SchnappschuB nicht wiedergewonnen werden. 

Erzeugung eines Schnappschusses 

Wie oben beschrieben, ist ein SchnappschuB einem Konsistenzpunkt sehr 
30 ahnlich. Deshalb soli die Erzeugung eines Schnappschusses imter Bezug- 
nahme auf die Unterschiede zwischen ihr und der Erzeugung eines Konsi- 
stenzpunkts gemaB Figuren 17A-17L erlautert werden. Figiiren 21A-21F 
zeigen die Unterschiede bei der Erzeugung eines Schnappschusses. 
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Figuren 17A-17D zeigen den Zustand des WAFL-Dateisystems, wenn ein 
SchnappschuB begonnen wird. Samtliche unsauberen Inoden werden als in 
dem Konsistenzpunkt befindlich markiert, Schritt 510, iind im Schritt 520 
werden die regularen Dateien auf Platte geraumt. Damit ist die Anfangs- 
5 verarbeitung fiir einen SchnappschuB identisch mit der eines Konsistenz- 
punkts. Die Verarbeitung fur einen SchnappschuB unterscheidet sich im 
Schritt 530 von der des Konsistenzpunkts. Im folgenden wird die Verarbei- 
tung eines Schnappschusses gemaB Figur 7 erlautert. 

10 Die folgende Beschreibung gilt fur einen zweiten SchnappschuB des 
WAFL-Dateisystems. Ein erster SchnappschuB ist in den blkmap- 
Eintragen der Figur 17C aufgezeichnet. Wie in den Eintragen 2324 A- 
2324M, den Blocken 2304-2306, 2310-2320 und 2324 dargestellt, sind 
diese in dem ersten SchnappschuB enthalten. Samtliche anderen Schnapp- 

15 schuB-Bits (BIT1-BIT20) haben angenommener Weise den Wert 0, was 
anzeigt, daB ein entsprechender SchnappschuB auf der Platte nicht vorliegt. 
Figur 21 A zeigt das Dateisystem nach AbschluB der Schritte 510 imd 520, 

Im Schritt 710 werden Inoden 2308C und 2308D des Schnappschusses 2 
20 und der blkmap-Datei 2344 auf Platte geraumt. Dies stellt sicher, daB der 
Block der Inoden-Datei, der die Schnappschu6-2-Inode enthalten wird, 
imsauber ist. In Figur 2 IB werden Inoden 2308C und 2308D fur den 
SchnappschuB 2 imd fiir die blkmap-Datei 2344 vorgeraimit. 

25 Im Schritt 720 ist die gesamte blkmap-Datei 2344 unsauber gemacht Dies 
veranlaBt die gesamte blkmap-Datei 2344, im Schritt 730 Plattenraxmi zu- 
gewiesen zu bekommen. Im Schritt 730 wird Plattenraum fur imsaubere 
Blocke 2308 und 2326 fur die Inoden-Datei 2346 imd die blkmap-Datei 
2344 gemaB Figur 21C zugewiesen. Angedeutet ist dies durch ein Drei- 

30 fachstemchen (***) neben den Blocken 2308 und 2326. Dies unterscheidet 
sich von der Erzeugung eines Konsistenzpunkts, bei dem Plattenspeicher- 
platz nur fur Blocke zugewiesen ist, deren Eintrage sich im Schritt 620 der 
Figur 6 innerhalb der blkmap-Datei 2344 geandert haben. Die blkmap- 
Datei 2344 nach Figur 21C enthalt einen einzelnen Block 2324, Wenn al- 
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lerdings die blkmap-Datei 2344 mehr als einen Block umfaBt, so wird im 
Schritt 730 Plattenspeicherplatz fur samtliche Blocke zugewiesen. 

Im Schritt 740 wird die Wurzelinode fur das neue Dateisystem in die Inode 
2308D fur SchnappschuB 2 kopiert. Im Schritt 750 werden die Inoden 
2308C und 2308D der blkmap-Datei 2344 und der SchnappschuB 2 auf 
Platte geraumt, wie in Figur 21D gezeigt ist Das Diagramm veranschau- 
licht, daB die Schnappschu6-2-Inode 2308D Blocke 2304 und 2308, nicht 
aber Block 2306 referenziert. 

Im Schritt 760 werden Eintrage 2326A-2326L im Block 2326 der blkmap- 
Datei 2344 gemaB Figur 2 IE aktualisiert. Das Diagramm zeigt, daB das 
SchnappschuB-2-Bit (BIT2) ebenso wie das FS-BIT und das CP-BIT fur 
jeden Eintrag 2326A-2326L aktualisiert wird. Damit sind die Blocke 2304, 
2308-2312, 2316-2318, 2322 und 2326 im SchnappschuB 2 enthalten, die 
Blocke 2306, 2314, 2320 und 2324 jedoch nicht. Im Schritt 770 werden die 
xmsauberen Blocke 2308 und 2326 auf Platte geschrieben. 

Die weitere Verarbeitimg des Schnappschusses 2 ist identisch mit der Er- 
zeugimg eines Konsistenzpunkts, wie dies in Figur 5 gezeigt ist. Im Schritt 
540 werden zwei Fsinfo-Bl5cke auf Platte geraxmit. Figur 2 IF reprasentiert 
das WAFL-Dateisystem in einem konsistenten Zustand anschlieBend an 
diesen Schritt. Die Dateien 2340, 2342, 2344 und 2346 des konsistenten 
Dateisystems nach AbschluB des Schritts 540 sind durch gestrichelte Lini- 
en in Figur 2 IF angegeben. Im Schritt 550 wird der Konsistenzpunkt diu-ch 
Verarbeitung der Inoden, die nicht in dem Konsistenzpunkt waren, abge- 
schlossen. 

Zugriffszeit-Oberschreibungen 

Unix-Dateisysteme mussen in jeder Inode eine „Zugriffszeif * (atime von 
access time) enthalten. Atime gibt den letzten Zeitpunkt des Lesens der 
Datei an. Er wird jedesmal aktualisiert, wenn ein Zugriff auf die Datei er- 
folgt. Wenn also eine Datei gelesen wird, wird der Block, der die Inode in 
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der Inoden-Datei enthalt, neu geschrieben, um die Inode zu aktualisieren. 
Dies konnte von Nachteil fur die Erzeugung von Schnappschussen deshalb 
sein, weil als Konsequenz das Lesen einer Datei moglicherweise Speicher- 
platz auf der Platte benotigt. AuCerdem konnte das Lesen samtlicher Da- 
5 teien innerhalb des Dateisystems zur Folge haben, daB die gesamte Inoden- 
Datei dupliziert wird. Die vorliegende Erfindnng lost dieses Problem. 

Wegen des Vorhandenseins von Atime konnte ein Lesevorgang mogli- 
cherweise Plattenspeicherplatz verbrauchen, da ein Modifizieren einer 
10 Inode znr Folge hat, daB ein neuer Block fur die Inoden-Datei auf die Plat- 
te geschrieben wird. AuCerdem konnte ein Lesevorgang moglicherweise 
fehlschlagen, wenn ein Dateisystem voll ist, demzufolge ein abnormaler 
Zustand des Dateisystems auftritt. 

15 Im allgemeinen werden Daten auf einer Platte in dem WAFL-Dateisystem 
nicht uberschrieben, mn auf der Platte gespeicherte Daten zu schiitzen. Die 
einzige Ausnahme dieser Regel besteht darin, dafi Atime fur eine Inode 
uberschreibt, wie dies in den Figuren 23A-23B gezeigt ist. Wenn ein 
,^time-Uberschreiben" stattfindet, bestehen die einzigen in einem Block 

20 der Inoden-Datei modifizierten Daten in Atime fur eine oder mehrere der 
Inoden, die sie enthalt, und der Block wird an derselben Stelle neu ge- 
schrieben. Dies ist die einzige Ausnahme innerhalb des WAFL-Systems. 
Im iibrigen werden neue Daten stets auf neue Plattenspeicherplatze ge- 
schrieben. 

25 

In Figur 23 A sind die Atimes 2423 imd 2433 einer Inode 2422 in einem 
alten WAFL-Inoden-Datei-Block 2420 und die Schnappschufiinode 2432, 
die den Block 2420 referenziert, dargestellt. Die Inode 2422 des Blocks 
2420 referenziert direkt den Block 2410. Atime 2423 der Inode 2422 ist 
30 „4/30 9:15 PM", wahrend Atime 2433 der Schnappschufi-Inode 2432 „5/l 
10:00 AM" ist. Figur 23 A veranschaulicht das Dateisystem vor einem 
Zugriff auf den direkten Puffer 2410. 
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Figur 23B veranschaulicht die Inode 2422 des direkten Blocks 2410, nach- 
dem auf den direkten Block 2410 zugegriffen wurde. Wie in dem Dia- 
gramm dargestellt, wird die ZugrifFszeit 2423 der Inode .2422 mit der 
Zugriffszeit 2433 des Schnappschusses 2432, den sie referenziert, uber- 
5 schrieben. Damit wird die Zugriffszeit 2423 der Inode 2422 fur den direk- 
ten Block 2410 „5/l 1 1 :23 AM", 

Das Zulassen des Uberschreibens von Inoden-Datei-Blocken mit neuen 
Zugriffszeiten (Atime) fuhrt zu einer leichten Inkonsistenz innerhalb des 

10 Schnappschusses. Die Atime fur eine Datei in einem SchnappschxxB kaim 
tatsachlich spater liegen als der Zeitpunkt, zu dem der SchnappschuB er- 
zeugt wurde. Um Benutzer an einem Feststellen dieser Inkonsistenz zu 
hindem, justiert WAFL den Wert Atime fur samtliche Dateien innerhalb 
eines Schnappschusses auf diejenige Zeit ein, zu der der SchnappschuB 

15 tatsachlich erzeugt wurde, imd nicht auf die Zeit, zu der auf die Datei zu- 
letzt zugegriffen wurde. Diese SchnappschuBzeit wird in der Inode gespei- 
chert, die den SchnappschuB in seiner Gesamtheit beschreibt Wenn folg- 
lich liber den SchnappschuB zugegriffen wird, so wird die Zugriffszeit 
2423 fur die Inode 2422 stets in Form „5/l 10:00 AM" gemeldet Dies 

20 geschieht sowohl vor dem Aktualisieren, wenn man ,,4/30 9:15 PM" er- 
warten konnte, als auch nach der Aktualisienmg, weim „5/l 11:23 AM" 
erwartet werden konnte. Erfolgt ein Zugriff durch das aktive Dateisystem, 
so werden die Zeiten in der Form ,,4/30 9:15 PM" und „5/l 1 1:23 AM" vor 
bzw. nach dem Aktualisieren gemeldet. Auf diese Weise wird ein Verfah- 

25 ren zum Fuhren eines Dateisystems in einem konsistenten Zustand und 
zum Erzeugen von ausschlieBlich lesbaren Kopien des Dateisystems of- 
fenbart. 
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Patentanspriiche 

1. Verfahren zum Erzeugen eines Konsistenzpunkts, umfassend die 
Schritte: 

Markieren (510) einer Mehrzahl von Inoden, wobei eine Inode eine 
Dateidefinitionsstruktur ist, die zumindest eine Datei in einem Dateisy- 
stem beschreibt, die auf mehrere modifizierte Blocke in einem Dateisy- 
stem venveist, als in einem Konsistenzpunkt befindlich; 

Raumen (520) regularer Dateien sowie Metadateien (530) auf eine Spei- 
chereinrichtung ; 

Raumen (540) mindestens eines Blocks von Dateisysteminfomiation auf 
die Speichereinrichtung; und 

emeutes Einstellen (550) jeglicher beruhrter Inoden, die nicht Teil des 
Konsistenzpunkts waren, in eine Warteschlange. 

2. Verfahren nach Anspmch 1, bei dem der Schritt des Raumens von 
Metadateien auf die Speichereinrichtung weiterhin folgende Schritte 
beinhaltet: 

Vorraumen (610) einer Inode aus einer Blockabbildungsdatei in eine 
Inodendatei; 
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Zuweisen (620) von Platz auf der Speichereinrichtung fur samtliche 
beruhrten Blocke in der Inode und den Blockabbildungsdateien; 



emeutes Raumen (630) der Inode fur die Blockabbildungsdatei; 

5 

Aktualisieren (640) einer Mehrzahl von Eintragen in der Blockab- 
bildungsdatei, wobei jeder Eintrag unter den mehreren Eintragen einen 
Block auf der Speichereinrichtung reprasentiert; und 

10 Schreiben (650) samdicher beruhrter Blocke in der Blockabbildungsdatei 

und der Inodendaiei auf die Speichereinrichtung. 
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